Senza difese
Quando il codice smette di eseguire ordini ed inizia a ragionare, la difesa deve imparare a prevedere il pensiero delle macchine.
Ciao a tutti! 🙌
Se dovessimo guardarci indietro per un istante, i dodici mesi appena trascorsi sembrano aver compresso un decennio di evoluzione tecnologica in un battito di ciglia. Se nel 2024 e per gran parte del 2025 abbiamo vissuto l’entusiasmo dell’Intelligenza Artificiale vista come il copilota perfetto, lo strumento che ci avrebbe finalmente liberati dalla noia delle query SQL o dal filtraggio infinito dei log di sistema, oggi la realtà è decisamente più complessa e, per certi versi, brutale. La Cybersecurity ha smesso di essere un gioco di guardie e ladri fatto di firme antivirus e firewall perimetrali. Ormai siamo entrati in una fase in cui l’AI non è più solo un supporto alla difesa, ma è diventata il campo di battaglia stesso, il proiettile e, purtroppo, spesso anche il movente.
Oggi non ci limitiamo più a proteggere un server o un database. Quello che cerchiamo di difendere sono, in realtà, le intenzioni, le identità degli agenti digitali e quei flussi logici invisibili che guidano macchine ormai capaci di agire in totale autonomia. Ci troviamo nel mezzo di una tempesta perfetta alimentata da grandi trasformazioni che stanno riscrivendo le regole del gioco digitale. Da una parte abbiamo la potenza quasi spaventosa di modelli come Mythos di Anthropic, dall’altra la proliferazione incontrollata di agenti autonomi come OpenClaw, il tutto inserito in un assetto difensivo che deve letteralmente correre più veloce della luce per non finire schiacciato da un’offensiva automatizzata.
Buona lettura.
Il risveglio di Mythos
Prendiamo, ad esempio, quello che sta succedendo nei laboratori di Anthropic. Per anni, l’azienda si è costruita una reputazione d’acciaio basata sui concetti di sicurezza e allineamento, posizionandosi come l’alternativa etica e cauta nel panorama dei grandi modelli linguistici. Tuttavia, con il rilascio estremamente riservato di Mythos, il quadro è cambiato in modo radicale. Mythos non è un semplice aggiornamento incrementale di quello che conoscevamo l’anno scorso, ma il risultato di un progetto interno denominato Glasswing che ha l’obiettivo di creare un sistema addestrato specificamente per il ragionamento cyber-offensivo e difensivo a più fasi. Non è una macchina che scrive codice meglio di un umano, ma piuttosto un sistema capace di elaborare strategie d’attacco articolate, concatenando vulnerabilità che, prese singolarmente, sembrerebbero del tutto innocue.
I dati che sono trapelati dai test condotti dall’AI Security Institute sono a dir poco impressionanti e dovrebbero far riflettere chiunque si occupi di sicurezza infrastrutturale oggi. In una simulazione su vasta scala che ha coinvolto migliaia di repository software considerate sicure e regolarmente aggiornate, Mythos è stato in grado di provocare centinaia di crash critici e, cosa ancora più preoccupante, ha ottenuto il controllo totale del flusso di esecuzione su sistemi completamente “patchati”. Questa capacità di analisi non ha precedenti nella storia dell’informatica: segna il passaggio definitivo da una ricerca di bug basata su schemi noti ad una basata sulla comprensione profonda della logica del software.
La vera forza di Mythos risiede nella sua capacità di gestire flussi di lavoro “agentici” a lungo termine. Mentre un esperto umano deve analizzare il codice, ipotizzare un punto di ingresso e testare manualmente ogni passaggio, Mythos opera in parallelo, instancabile, esplorando migliaia di percorsi logici contemporaneamente finché non trova la crepa invisibile. La decisione di Anthropic di limitare l’accesso a questo modello a poche decine di organizzazioni ultra-selezionate riflette la consapevolezza del pericolo: se uno strumento del genere finisse nelle mani sbagliate o se un modello open source raggiungesse prestazioni simili senza i vincoli etici di Glasswing, la nostra attuale capacità di difesa crollerebbe nel giro di una notte.
Siamo di fronte ad un’arma che non dorme mai e che impara da ogni tentativo fallito. Il fatto che le grandi istituzioni finanziarie e tecnologiche siano le uniche a poterlo utilizzare per testare le proprie barriere crea un divario di sicurezza enorme tra chi può permettersi la protezione di un’AI di classe Mythos e chi invece deve ancora affidarsi a strumenti tradizionali. Questa asimmetria è uno dei temi più caldi delle ultime settimane, poiché sposta il potere difensivo nelle mani di pochissimi attori globali, lasciando le piccole e medie imprese potenzialmente scoperte di fronte a versioni “depotenziate“, ma comunque letali, di queste tecnologie che iniziano a circolare nel dark web.
Lo scudo e la fionda
Su questo specifico tema, ovvero sul rischio di creare un mondo a due velocità, dove i colossi hanno lo “scudo spaziale” e le piccole imprese sono lasciate a difendersi con la fionda contro i killer digitali del dark web, ho chiesto un punto di vista “informato” a Mauro Guerrieri, che oltre ad aver fondato la nostra agenzia, ha una expertise consolidata in sicurezza informatica e programmazione.
“Il rischio è reale, ma la metafora dello ‘scudo spaziale per i ricchi e fionda per tutti gli altri’ merita un approfondimento, perché il modo in cui ce la raccontiamo cambia le soluzioni che cerchiamo. E in alcuni punti, sorprendentemente, c’è anche una buona notizia. Partiamo da Mythos, che è il simbolo di questo presunto scudo. Anthropic non lo tiene chiuso per venderlo a peso d’oro a JPMorgan. Lo tiene chiuso perché è oggettivamente pericoloso. Durante i test interni ha scoperto da solo bug rimasti nascosti per 27 anni in software che mezzo mondo usa da tempo. Se lo aprissero a chiunque, il giorno dopo finirebbe nelle mani di gruppi criminali, che farebbero esattamente le stesse scoperte, ma per attaccare. Quindi quel particolare scudo, oggi, non è davvero in mano a nessuno.
Sul piano tecnologico, in realtà, le distanze si stanno paradossalmente assottigliando. Modelli cinesi come DeepSeek o europei come quelli di Mistral sono scaricabili gratuitamente, ed una piccola azienda oggi può mettersi in casa una capacità di Intelligenza Artificiale che dodici mesi fa era roba da laboratorio. Su questo, la democratizzazione c’è e funziona. Il problema vero, però, è un altro, ed è qui che la tua intuizione sull’asimmetria si rivela giustissima. Avere il modello non significa avere la difesa. Una PMI può scaricarsi stasera il modello più potente del mondo, ma non ha le persone che lo fanno funzionare h24, non ha chi legge gli alert alle tre di notte, non ha chi si tiene aggiornato su quali sono gli attacchi della settimana. Lo scudo, in altre parole, non è il software. È l’organizzazione attorno al software. Ed è lì che si apre la voragine tra chi se lo può permettere e chi no.
La soluzione non è chiedere ad Anthropic di liberare Mythos, sarebbe come dare a tutti il codice di una cassaforte, ma piuttosto costruire un livello intermedio: servizi che prendono la capacità difensiva di frontiera e la rendono usabile da chi non ha un esercito di analisti dentro casa. Detection, monitoraggio, risposta automatica, confezionati in modo che una PMI o una sanità locale li possano accendere come si accende un antivirus. La buona notizia è che il mercato della sicurezza si sta muovendo esattamente in questa direzione, con una velocità che un anno fa non avremmo immaginato. Strumenti sempre più integrabili, in molti casi quasi trasparenti, attivabili con un click anche da chi non ha un reparto IT strutturato. E dall’altra parte spinge anche la regolamentazione: la direttiva NIS2, a livello europeo, sta obbligando un numero molto ampio di aziende a prendere sul serio la propria sicurezza. Quando un mercato e un regolatore si muovono nella stessa direzione, di solito è il segnale che qualcosa sta succedendo davvero. Esiste un interesse economico, e un interesse normativo, a non lasciare che si formi quella spaccatura tra chi può difendersi e chi no.
Detto questo, è giusto ammettere che le differenze dimensionali resteranno sempre. La sicurezza di una banca sarà sempre più sofisticata di quella di un negozio di alimentari sotto casa, ed è normale che sia così. Ma un conto è avere livelli diversi di protezione, un altro è avere alcuni con lo scudo e altri completamente esposti. L’obiettivo, per i prossimi anni, è far sì che anche il piccolo negozio abbia abbastanza difesa da non essere il bersaglio facile della prossima ondata automatizzata.”
L’ombra degli agenti autonomi
Eppure, mentre i colossi cercano di blindare i loro modelli più potenti, il mondo reale si sta già popolando di agenti autonomi che operano in modo molto meno controllato. Il caso più emblematico è senza dubbio quello di OpenClaw. Questo framework, diventato in breve tempo il punto di riferimento per chi vuole automatizzare interi processi aziendali, permette all’AI di leggere e-mail, interagire con le API dei fornitori, scrivere file sul cloud ed eseguire comandi direttamente nel terminale. Per un responsabile dell’automazione, OpenClaw è una benedizione che promette di abbattere i costi operativi, mentre, per un esperto di sicurezza, è un incubo ad occhi aperti che spalanca le porte a rischi sistemici mai visti prima.
Il vero pericolo di OpenClaw non risiede nell’architettura di base, ma piuttosto nel suo ecosistema di competenze aggiuntive. È nata una sorta di economia sommersa, una catena di approvvigionamento delle abilità digitali, dove gli utenti scaricano pacchetti pre-configurati per far fare all’agente compiti specifici, come ottimizzare i flussi di fatturazione o gestire il calendario. Molte di queste competenze provengono da repository pubbliche senza alcun tipo di certificazione o controllo di sicurezza. I criminali informatici hanno capito subito che non serve più “hackerare” direttamente l’azienda se puoi convincere l’agente del dipendente a lavorare segretamente per te.
Immaginiamo di installare una skill apparentemente innocua per la gestione dei contatti. Quando OpenClaw la esegue, agisce con l’identità e i privilegi dell’utente legittimo. Se quella skill contiene del codice malevolo o, peggio ancora, delle istruzioni di manipolazione logica, l’agente potrebbe iniziare a esfiltrare dati sensibili ogni volta che processa una nuova e-mail, senza che l’utente umano se ne accorga. Questo accade perché abbiamo dato a queste macchine la capacità di decidere ed eseguire azioni in nostra vece, ma non abbiamo ancora implementato un sistema di controllo che verifichi l’integrità morale di ogni singola decisione presa dall’agente.
Questa vulnerabilità della catena di approvvigionamento delle skill è diventata uno dei vettori d’attacco preferiti di oggi. Non si tratta di iniettare un malware tradizionale, ma di inserire un comando “logico“ che l’AI interpreta come una direttiva legittima. Poiché l’agente è progettato per essere utile e collaborativo, tende a eseguire ciò che legge nel suo contesto operativo, rendendo estremamente difficile distinguere tra un comando impartito dal proprietario ed uno inserito furtivamente da un terzo attraverso un documento infetto o una pagina web consultata durante una ricerca automatizzata.
Parole come proiettili
Questa evoluzione ha trasformato la tecnica della Prompt Injection in una minaccia di primo livello. Se un tempo dovevamo preoccuparci di ripulire gli input che andavano verso un database per evitare attacchi SQL, oggi dobbiamo preoccuparci di ogni singolo carattere che un’AI legge dal web o da una casella di posta. È una sfida immensa, perché non si tratta di bloccare un file statico, ma di impedire che il ragionamento di una macchina venga corrotto da un input esterno malevolo. Basta un commento invisibile in un file PDF o un testo dello stesso colore dello sfondo su un sito web per dare ordini segreti ad un agente autonomo che sta riassumendo quel contenuto per noi.
La gravità della situazione è amplificata dal fatto che questi agenti operano spesso in background, lontano dagli occhi dell’utente. La vittima non riceve avvisi, non vede finestre pop-up sospette, ma semplicemente l’AI che svolge il suo lavoro quotidiano, mentre nel silenzio della rete i suoi segreti vengono inviati a server remoti. I classici sistemi di monitoraggio faticano a gestire questa nuova realtà, perché dal loro punto di vista l’attività è generata da un software autorizzato che compie azioni tipiche del suo profilo, come inviare una mail o caricare un file.
In risposta a questo scenario da far west, il settore della difesa sta subendo una metamorfosi profonda. Non possiamo più permetterci di essere reattivi e aspettare il lunedì mattina per leggere i report dei fallimenti del weekend. Le aziende più all’avanguardia stanno adottando sistemi di patching proattivo che utilizzano modelli di difesa avanzati per scansionare la propria infrastruttura ogni pochi secondi. Quando viene trovata una possibile debolezza, l’AI difensiva non si limita a generare un avviso, ma crea ed applica una contromisura temporanea in tempo reale, riducendo quella che una volta era una finestra di esposizione di giorni a pochi secondi di incertezza.
È una corsa contro il tempo dove il software impara a curarsi da solo prima ancora che l’attaccante si accorga che esiste una falla. Questo approccio sta cambiando radicalmente il lavoro dei team di sicurezza, che passano dal gestire l’emergenza al supervisionare i criteri con cui l’AI difensiva prende le sue decisioni. La velocità è tutto: in un mondo dove un modello come Mythos può trovare un exploit in pochi minuti, la risposta umana è semplicemente troppo lenta. La delega alla difesa automatizzata non è più un’opzione lussuosa, ma una necessità di sopravvivenza per qualsiasi infrastruttura critica.
Sicurezza a strati
Arrivati a questo punto, la domanda sorge ovviamente spontanea: se diamo le chiavi di casa ad agenti come OpenClaw, come facciamo a dormire tranquilli? Il rischio è che basti un comando invisibile in un PDF per convincere l‘AI a lavorare per i cattivi mentre noi pensiamo che stia solo ordinando la cancelleria. Come si fa a blindare un agente autonomo affinché sappia distinguere tra un compito utile ed un sabotaggio mascherato? A questa domanda, io non so davvero rispondere. Lo ammetto. Eppure, penso sia fondamentale provare a farlo. Mauro ha le idee molto chiare a riguardo.
“Quando diamo ad un agente come OpenClaw il compito di gestire qualcosa per noi - ordinare cancelleria, organizzare l’agenda, rispondere alle e-mail - quell’agente legge documenti, allegati, pagine web. Il punto è che per lui non esiste una linea di confine tra ‘informazioni’ e ‘ordini’. Tutto è testo. E se dentro un PDF qualcuno ha nascosto la frase giusta, l’agente la esegue come se gliel’avessi data tu. È come avere un assistente molto efficiente ma con una caratteristica strana: prende ordini da chiunque gli scriva un foglietto, anche da uno sconosciuto che gliel’ha lasciato sulla scrivania. Tu pensi che stia ordinando penne, lui sta inoltrando il database clienti a un indirizzo sbagliato.
Per dormire ‘quasi’ tranquilli, bisogna smettere di pensare alla sicurezza come ad una proprietà magica del modello ed iniziare a costruirla a strati, come si fa con qualsiasi sistema critico. Il primo strato, quello a cui si pensa di meno, sta a monte di tutto: prima ancora che l’agente apra la bocca, bisogna sapere chi gli sta parlando. Sembra banale, ma non lo è. Una richiesta che arriva al tuo agente può venire da un dipendente reale, da un fornitore autorizzato, da un sistema interno, oppure da qualcuno che sta fingendo di essere uno dei tre.
Alcuni controlli sono semplici: verificare che la richiesta arrivi da un canale legittimo, da un’identità riconosciuta, in un orario plausibile. Altri sono molto più sofisticati: capire se chi sta scrivendo si comporta davvero come la persona che dice di essere, o se ci sono segnali, nel modo in cui si esprime, nella sequenza delle azioni, nei metadati nascosti dietro la conversazione, che tradiscono un’identità presa in prestito. È il livello che presidiamo noi con SentraIP: una specie di ‘portierato intelligente’, quello che decide chi può anche solo iniziare a parlare con l’agente.
Il secondo strato è dare all’agente solo le chiavi che gli servono davvero. Se deve ordinare cancelleria, non deve poter accedere alla contabilità. Sembra ovvio, ma in pratica vediamo continuamente agenti con accesso a mezza azienda ‘perché così funziona meglio’. È esattamente quello il varco. Il terzo è osservare cosa l’agente fa una volta partito, non solo cosa gli viene detto. Se l’assistente che dovrebbe gestire ordini all’improvviso prova a scaricare file di sistemi diversi o a inviare dati all’esterno, lì scatta l’allarme. Il quarto è il buon vecchio occhio umano sulle cose importanti. Per le azioni irreversibili: un pagamento, un invio massivo, una modifica critica, un essere umano deve dare l’ok finale. È un piccolo attrito che vale tantissimo.
In un mondo in cui un PDF apparentemente innocuo può ribaltare la missione di un agente, la sicurezza non è un singolo grande muro che ferma tutto. Sono più barriere, di natura diversa, messe in punti diversi. Nessuna è invalicabile da sola, ma insieme rendono la nostra difesa meno prevedibile e l’imprevedibilità, vale molto di più della forza oggigiorno.”
Il nemico al volante
Un altro fronte critico che stiamo affrontando - a cui giustamente accennava anche lo stesso Mauro Guerrieri - è quello della gestione delle identità. Oggi abbiamo finalmente capito che non possiamo più trattare le azioni di un agente AI come semplici estensioni dell’utente umano. Sta nascendo il concetto di AI Identity: ogni agente autonomo deve possedere un certificato digitale univoco, un set di permessi granulari che scadono in tempi brevissimi ed un registro delle attività assolutamente immutabile. Se OpenClaw decide di cancellare un intero database di prova, il sistema di sicurezza deve verificare, non solo se l’utente umano ha il permesso teorico di farlo, ma se l’intento dell’agente in quel preciso momento è coerente con la missione che gli è stata assegnata ufficialmente.
Questo passaggio verso una sicurezza basata sul contesto e sulla verifica dell’intento è fondamentale. Non basta più sapere chi sta compiendo l’azione: dobbiamo capire perché la sta compiendo. Se il comportamento dell’agente devia dai parametri logici attesi, il sistema deve essere in grado di revocare istantaneamente le credenziali della macchina, isolandola dal resto della rete prima che possa causare danni reali. È una sorta di gestione del personale applicata al software, dove la fiducia non è mai data una volta per tutte, ma deve essere riconfermata a ogni singola operazione logica.
Infine, non possiamo certo ignorare anche il problema crescente della Shadow AI. Proprio come un tempo i dipendenti portavano i propri router in ufficio per aggirare i filtri aziendali, oggi molti utilizzano versioni non autorizzate di agenti autonomi o caricano dati sensibili su modelli pubblici per ottenere risultati rapidi e impressionare i superiori. Spesso lo fanno con le migliori intenzioni, ignorando che ogni prompt inviato a un’AI esterna potrebbe essere utilizzato per l’addestramento o, peggio, essere intercettato da attori malevoli che monitorano le pipeline dei dati dei grandi fornitori.
Per contrastare questo fenomeno, si stanno diffondendo i gateway di sicurezza AI, dei veri e propri filtri intelligenti che intercettano ogni comunicazione verso l’esterno. Questi strumenti non si limitano a bloccare i siti pericolosi, ma analizzano il contenuto del prompt in tempo reale, anonimizzando i dati sensibili, oscurando i segreti industriali e impedendo che informazioni critiche escano dal perimetro aziendale. È una lotta costante tra la comodità dell’utente e la necessità di proteggere il patrimonio informativo dell’organizzazione, in un equilibrio che si sposta ogni giorno con l’uscita di una nuova applicazione o di un nuovo modello linguistico più performante.
L’era dell’infocognition
L’attuale scenario della Cybersecurity contemporanea è, in ultima analisi, una partita a scacchi giocata a velocità relativistica. Da un lato abbiamo la potenza chirurgica di strumenti come Mythos, capaci di smantellare difese tradizionali con una precisione che rasenta l’incredibile, dall’altro, la fragilità di un mondo che ha abbracciato l’automazione totale tramite agenti come OpenClaw senza prima aver rinforzato le fondamenta della propria architettura logica. L’Intelligenza Artificiale non ha rotto la sicurezza, l’ha semplicemente spostata su un piano dove conta solo la capacità di ragionamento puro.
Siamo entrati ufficialmente nell’era dell’infocognition (information + cognition), un’epoca in cui il codice non è più solo una serie di istruzioni statiche, ma un processo di pensiero autonomo che può essere alleato o nemico. In un mondo dove le macchine pensano per attaccare, noi dobbiamo assicurarci che le nostre pensino ancora meglio per proteggerci. Per chi vive di tecnologia, la sfida non è più imparare a memoria le firme degli ultimi malware, ma capire profondamente come funzionano i processi decisionali degli agenti digitali. È proprio lì, in quella sottile terra di nessuno tra una riga di prompt e l’esecuzione di un comando, che si deciderà il destino della nostra sovranità digitale.
Resta da capire se riusciremo a mantenere un controllo umano significativo al centro di questo ecosistema o se stiamo scivolando verso una realtà in cui la sicurezza sarà interamente delegata a scontri silenziosi tra Intelligenze Artificiali, lasciandoci nel ruolo di spettatori di una guerra che non possiamo più vedere né comprendere appieno. La velocità con cui Anthropic e gli sviluppatori indipendenti si stanno muovendo suggerisce che non avremo molto tempo per riflettere.



