Lo sviluppo rapidissimo delle tecnologie per la clonazione della voce porta con se enormi rischi legati all’uso dei deepfake. L’unica soluzione possibile è una maggiore educazione alla cybersicurezza.
Immaginate questo scenario: l’Amministratore Delegato di una piccola azienda risponde al telefono. Dall’altro capo del filo riconosce la voce del suo omologo a capo della filiale tedesca della compagnia. Il collega ha bisogno di un favore: deve effettuare un bonifico di 220.000€ a un fornitore ungherese entro un’ora e non ha modo di farlo dalla Germania. La filiale inglese potrebbe farsi carico del transfer, che verrà poi rimborsato a stretto giro? Il dirigente britannico non ci trova nulla di strano, la cifra è importante ma non fuori scala, e il collega sembra davvero in difficoltà, così accetta di aiutarlo.
Nel giro di poco i soldi finiscono sul conto del finto fornitore ungherese, vengono subito trasferiti verso un conto messicano, e infine spariscono in altri rivoli bancari prima che l’azienda si accorga di cosa è successo. Era una truffa: la voce al telefono non era quella del dirigente tedesco, ma di un’intelligenza artificiale allenata per imitarne perfettamente il tono e la cadenza.
Sembra lo script di una puntata di Black Mirror, ma è solo la descrizione di un caso di truffa avvenuto realmente ai danni di una società del settore energetico. L’aspetto più preoccupante? Non è successo di recente, ma quattro anni fa, nel 2019, quando le intelligenze artificiali generative erano ancora ben lontane dalle capacità di software commerciali che oggi fanno già parte della nostra vista professionale.
Nel 2020 si è registrato un caso simile, ma più complesso e con un bottino assai più ricco, 35 milioni di dollari, ai danni di una banca di Hong Kong. In quel caso la voce clonata era quella di un cliente di alto profilo, e la telefonata falsa al direttore della filiale fu solo un tassello – per quanto centrale – di un’operazione di ingegneria sociale più ampia e complessa che passava anche per una serie di email falsificate.
Negli ultimi tre anni i modelli AI per il cosiddetto “voice cloning” hanno fatto passi da gigante. I servizi commerciali che offrono la clonazione della voce si sono moltiplicati e il mercato, che valeva circa 760 milioni di dollari nel 2020, è destinato a superare i 3,8 miliardi di dollari di giro d’affari nel 2027.
Gli usi “edificanti” della tecnologia si sono moltiplicati. Descript, la startup più famosa del settore, offre un tool che si chiama overdub: permette di clonare la voce di uno speaker e di usarla per correggere le registrazioni in post-produzione.
Fra le concorrenti ci sono aziende come Respeecher, Resemble AI e Veritone, che offre servizi analoghi. Anche i colossi della tecnologia non stanno a guardare: azienda come Google e IBM hanno investito somme consistenti nello sviluppo delle loro tecnologie. Microsoft, dal canto suo, ha messo a punto un sintetizzatore vocale chiamato Vall•e, che riprende il nome di Dall•e, il generatore di immagini di OpenAI: pare sia potentissimo, ma (forse proprio per questo) lo possono usare solo i ricercatori e non è accessibile a tutti. A differenza delle startup, le grandi aziende – più soggette allo scrutinio pubblico – in molti casi non rendono pubblici i propri modelli AI per la clonazione audio proprio per evitare possibili ripercussioni d’immagine.
La domanda a questo punto sorge spontanea: esistono modi per difendersi dagli sviluppi della clonazione vocale e dai deepfake audio?
Gli esperti di settore sono concordi nell’affermare che l’unico modo per non essere travolti dallo sviluppo delle tecnologie di sintesi vocale non è limitarne gli sviluppi o gli usi, ma – paradossalmente – accettarne l’esistenza. Sebbene esistano sistemi digitali per il rilevamento dell’audio generato con l’intelligenza artificiale, si tratta sempre di soluzioni destinate a diventare rapidamente obsolete, perché sempre un passo indietro rispetto all’avanzamento dei modelli AI utilizzati dai cybercriminali.
L’unica soluzione sostenibile sul lungo termine sono invece gli investimenti sulla valutazione dei cyber-rischi e soprattutto sull’educazione alla cultura della cybersicurezza, sia a livello governativo sia nelle aziende. Educazione significa anche ripensare la compliance e progettare processi aziendali in maniera sicura. Come dimostra il caso della banca di Hong Kong e altri attacchi analoghi, le cybertruffe vengono condotte spesso tramite più canali, inclusi sistemi considerati (erroneamente) sicuri come il telefono e l’email.
Ripensare il lavoro e le comunicazioni aziendali per eliminare il rischio alla radice – ad esempio smettendo di basare le comunicazioni interne sull’email – è un primo passo che può dare risultati concreti a livello di prevenzione. Se ad esempio nel 2019 l’azienda inglese vittima della truffa che raccontavamo all’inizio del nostro articolo avesse previsto un protocollo di sicurezza per l’approvazione dei bonifici, la truffa non sarebbe probabilmente riuscita.