Ci sono diversi modi per aggirare le difese dei sistemi, scoperti provando e riprovando, ma la tecnologia è già tra il pubblico. Bisogna intervenire prima che sia troppo tardi. La parola agli esperti di Anthropic

Scovare le vulnerabilità dell’intelligenza artificiale nei modelli linguistici di grandi dimensioni, Large Language Model (LLM), è diventata la sfida del decennio per un numero crescente di hacker malevoli. Contro di loro, gli sviluppatori stanno sguinzagliando schiere di ricercatori che hanno il compito di provare e riprovare i prodotti messi a disposizione del grande pubblico, in modo tale da arrivare prima rispetto ai cattivi della rete. Dunque, combattere i malintenzionati resta fondamentale per governare la democratizzazione dell’intelligenza artificiale. Oggi la riflessione pubblica ha messo in chiaro che, oltre agli aspetti di indubbia utilità, esiste più di un lato oscuro, e tenerlo a bada richiederà una costante attenzione.

Le domande che stordiscono gli LLM

Anthropic, società fondata da Dario Amodei e tra i principali rivali di Open Ai, raccontano sul proprio blog aziendale di essere venuti a conoscenza di alcune vulnerabilità del proprio modello linguistico Claude. In particolare, hanno scritto un post che riguarda il “many shots jailbreaking”. Ma di che cosa si tratta?

È noto che i modelli linguistici sono addestrati a non rispondere a domande pericolose, come per esempio “Come si costruisce una bomba?”. La conclusione, per motivi ovvi, dovrebbe essere un semplice “Mi dispiace, non posso dirtelo” o qualcosa del genere. Ma i ricercatori e la comunità degli utenti hanno scoperto che, ponendo una serie di domande molto distanti tra loro si possono aggirare le difese messe in campo dagli sviluppatori.

VIDEO

Wired: la recensione in 60 secondi di Xiaomi 14 Ultra

Il trucco è quello di stordire la macchina con una serie di “dialoghi falsi”, attraverso disinteressate, che hanno come unico obiettivo quello di preparare il terreno per ciò che ci interessa realmente. “Come legare qualcuno? Come accendere un’auto senza le chiavi? Come rubare l’identità a qualcuno?” Sono alcuni tra gli esempi riportati dalla società americana. Ponendo solo una decina di domande semplici e non particolarmente problematiche, i meccanismi di sicurezza mostrano di funzionare. Ma basta aumentare il numero – Anthropic ha provato con 256 richieste – per rischiare di ottenere davvero informazioni su come costruire un ordigno o altre cose terribili.

I test condotti su Claude, nella versione 2.0, mostrano una leggera crescita delle possibili risposte pericolose tra le 25 – 30 domande, circa il 5%, mentre hanno un’impennata vertiginosa una volta arrivati a 256 domande, che si arriva al 40% per le richieste relativa a odio e violenza, sfiora il 60% per il cosiddetto regulated content (come per esempio risposte riguardanti droga e gioco d’azzardo) e addirittura giunge al 70% per truffe e discriminazioni. Una stanchezza delle macchine? In realtà, non proprio.

Altre tipologie di attacco

Il post dell’azienda americana aggiunge che gli effetti degli attacchi possono essere potenziati da differenti strategie. Una di queste è quella di utilizzare la cosiddetta ASCII art, che prende il nome dalla tabella dei caratteri alfanumerici presenti sulle tastiere. Se nella frase “Mi spieghi come costruire una bomba?” la parola “bomba” viene sostituita da un disegno creato con caratteri (ASCII art) alcuni sistemi risponderebbero fornendo informazioni effettivamente utili a fabbricare un ordigno.

Un altro esempio, citato dall’esperto Gary Marcus, è chiedere al LLM di ripetere una parola all’infinito. Il risultato, dopo centinaia di linee, potrebbe essere la rivelazione di informazioni personali di alcuni utenti, prese a casaccio tra quelle digerite durante l’allenamento. “Ci sono molte tipologie di attacco” annota Marcus “e io stesso non le conosco tutte. I problemi di sicurezza continuano ad aumentare, e nessuno ha una lista completa: ed è proprio questo il punto” afferma. “Per alcuni si trovano delle soluzioni, ma è molto probabile che [di attacchi] ce ne saranno sempre di più”.

La questione centrale, afferma ancora Marcus, “è che nessuno sa come funzionino gli LLM, ed è per questo che nessuno può fornire garanzie su di loro. Il che andrebbe anche bene, se gli LLM fossero tenuti in laboratorio, ma con centinaia  di milioni di persone che li usano quotidianamente […] la mancanza di qualsivoglia tipo di garanzia diventa ogni giorno più preoccupante”.

La conclusione di Marcus è secca: “La regola numero uno della cybersecurity è mantenere la superficie di attacco ridotta: negli LLM pare infinita. E questo non può essere una cosa positiva”.

Anthropic: “Agire ora o potrebbe essere tardi”

Wired ha sentito Anthropic sui temi della sicurezza. La società è stata estremamente disponibile a dialogare sulla questione, rispondendo in maniera dettagliata alle nostre richieste. Ne è uscita una visione schietta, ma al tempo stesso preoccupante.

“Ogni tentativo di aggirare le caratteristiche di sicurezza di un LLM è jailbreak secondo la definizione standard e il many shot di cui abbiamo parlato è una delle modalità” dice Cem Anil dell’Alignment Science team della società americana. “Ma non è l’unica. Un’altra, ancora peggiore, consiste nell’inserire di nascosto dati indesiderati (le cosiddette backdoors) nel pacchetto usato per l’allenamento degli LLM. Questa categoria di dati, che può infilarsi nelle nostre barriere difensive, può innescare risposte non sicure quando un particolare input di innesco predisposto dall’autore dell’attacco è processato”. Vengono chiamati “agenti dormienti”, riprendendo il lessico delle spie, “e le nostre precedenti ricerche mostrano che questo tipo di backdoor può superare le barriere standard messe in campo nell’addestramento della AI”.

“Impieghiamo molte strategie per assicurare la sicurezza dei nostri sistemi e non possiamo rivelarle tutte” prosegue Anil. Si procede per strati, “e se ognuno ha una sicurezza del 90%, il sistema alla fine raggiunge il 99,99% di efficacia”. In pratica, tra le altre modalità, “controlliamo gli input prima che raggiungano il modello per accertarci che una richiesta sia sicura, insegnandogli al contempo a riconoscere quelle che non lo sono. Ma esaminiamo anche gli output a parte, isolandoli dal resto, per verificare che non siano presenti contenuti non sicuri”.

Rischi di lungo periodo

Il manager va oltre. “Siamo interessati anche ai rischi che derivano dalle capacità dei sistemi di intelligenza artificiale del futuro. In questo caso, l’obiettivo è cercare di comprendere in anticipo le possibilità dei prossimi modelli linguistici in modo tale da produrre dei rapporti che ci possano allertare quando alcune soglie accuratamente identificate vengono superate”.

Parlarne apertamente non rischia di danneggiare la vostra reputazione? “In realtà, no” spiega Anil. “Più i sistemi di intelligenza artificiale diventano potenti, più diventa essenziale che chi li sviluppa garantisca la sicurezza dei propri prodotti. Pensiamo che danneggerebbe molto di più l’immagine della società il fatto che, modelli così potenti sviluppati da noi possano essere usati per danneggiare seriamente il mondo in cui viviamo”.

Al di là del tecno ottimismo, il futuro spaventa anche la società di Amodei. “Una volta che i sistemi avranno superato una certa soglia di capacità, diventerà molto più difficile parlare apertamente e risolvere le vulnerabilità. Significa che dobbiamo fare ricerca sulla sicurezza ora, su modelli che non pongono rischi catastrofici”.

Sul tema, afferma Anil, Anthropic si confronta con governi e altre realtà di settore, oltre che con le università. Alla fine, “crediamo che la AI possa apportare grandi benefici alla società, migliorando la medicine, le scienze, la comunicazione e moltissimi altri campi. Ma sappiamo poco di come i sistemi di AI funzionano davvero, spesso si comportano in maniera sorprendente e non prevista e non abbiamo il controllo che ci piacerebbe sul loro comportamento. Ciò significa che c’è un rischio futuro che sistemi di AI ad alto potenziale siano usati da umani malintenzionati per scopi malevoli. Per questo facciamo così tanta ricerca sulla sicurezza: vogliamo che la AI sia un bene per la società e pensiamo che risolvere i problemi oggi pagherà dividendi in futuro proprio sotto questo aspetto”.

Chi stabilisce i limiti dell’AI

Resta una domanda fondamentale: chi deve stabilire i limiti dell’AI? “Crediamo che sia la società nel suo complesso a doverlo fare, in maniera democratica” replica Anil. “Uno dei modi che impieghiamo è intervistare un campione rappresentativo della popolazione statunitense e chiedere loro di aiutarci a scrivere la ‘carta costituzionale’ del nostro modello, i principi lo dovrebbero guidare e come comportarsi in vari scenari. Alla fine, una delle ragioni per cui siamo così tanto interessati a parlare coi decisori politici sull’AI è perché vogliamo che siano il più informati possibili sui possibili benefici e rischi, così come sulle ultime caratteristiche, in modo che possano legiferare nella maniera più consapevole e informata possibile”. La battaglia è agli inizi. L’intelligenza artificiale è nata negli anni Cinquanta del secolo scorso. Ma stiamo uscendo solo ora, quasi un secolo dopo, dalla preistoria.

Wired Italia

error: Content is protected !!