Intelligenza artificiale specializzata individua il 92% degli exploit defi nel mondo reale

Cecuro, una società specializzata in sicurezza basata su intelligenza artificiale, ha pubblicato un nuovo benchmark open source che mette a confronto un agente di sicurezza progettato ad hoc con un agente di codifica basato su GPT-5.1 nel rilevamento di vulnerabilità sfruttate in contratti smart contract della DeFi.

Lo studio valuta 90 smart contract reali che sono stati effettivamente sfruttati tra ottobre 2024 e i primi mesi del 2026, per un totale verificato di perdite pari a circa 228 milioni di dollari. Secondo il benchmark, l’agente specializzato ha identificato vulnerabilità collegate a 96,8 milioni di dollari in valore sfruttato, mentre l’agente basato su GPT-5.1 ha raggiunto una copertura del 34% corrispondente a circa 7,5 milioni di dollari.

Dettagli metodologici del benchmark

Entrambi gli agenti sono stati eseguiti sullo stesso modello di frontiera, ma la differenza sostanziale è stata il livello applicativo: l’agente di sicurezza ha combinato una metodologia specifica per il dominio, fasi di revisione strutturate e euristiche mirate alla DeFi. Questo stratagemma ha permesso di intercettare vulnerabilità complesse su contratti che in molti casi avevano già subito audit professionali prima di essere sfruttati.

Il dataset, il framework di valutazione e l’agente baseline sono stati pubblicati su GitHub come risorse open source per la comunità; tuttavia, la società non ha rilasciato il proprio agente completo per motivi di sicurezza, citando il rischio che strumenti analoghi possano essere riutilizzati a fini offensivi.

Contesto: l’uso dell’IA nella criminalità informatica

Ricerche indipendenti condotte da gruppi come Anthropic e OpenAI hanno mostrato che agenti basati su AI sono ora in grado di eseguire exploit end-to-end su gran parte dei smart contract vulnerabili noti. In tali studi la capacità di mettere a punto exploit viene descritta come raddoppiata approssimativamente ogni 1,3 mesi.

Il costo medio per tentativo di exploit automatizzato risulta estremamente basso (circa 1,22 dollari per contratto), un fattore che abbassa drasticamente la barriera all’ingresso per attacchi su larga scala e favorisce la diffusione di attività malevole.

Report giornalistici precedenti hanno evidenziato come attori statali e non statali, inclusi gruppi legati alla Nord Corea, stiano adottando tecniche basate su AI per ampliare e automatizzare operazioni di hacking, aumentando il divario tra capacità offensive e difensive.

Implicazioni per team di sicurezza e mercato

Cecuro sostiene che molti team continuino a fare affidamento su strumenti di uso generale o su audit puntuali, approcci che il benchmark indica essere potenzialmente insufficienti per individuare vulnerabilità di alto valore e complesse. La ricerca suggerisce che l’integrazione di pratiche specifiche per la DeFi e processi iterativi di revisione aumenti significativamente l’efficacia del rilevamento.

Dal punto di vista del mercato, la disponibilità crescente di strumenti automatici a basso costo per la scansione e lo sfruttamento può intensificare la frequenza degli attacchi, con ripercussioni sulla fiducia degli investitori e sulla stabilità di protocolli emergenti.

Raccomandazioni e risposte possibili

Per mitigare il rischio, l’articolo raccomanda di adottare un approccio multilivello che includa: l’uso di agenti di sicurezza specifici per dominio, revisioni continue del codice, test di penetrazione automatizzati e manuali, e la condivisione controllata di dataset e procedure di valutazione per favorire miglioramenti collettivi senza facilitare l’abuso degli strumenti.

Le autorità di vigilanza e le associazioni di settore potrebbero inoltre valutare linee guida e standard specifici per la gestione del rischio legato all’impiego dell’AI nella sicurezza dei protocolli finanziari decentralizzati.

Disponibilità dei dati e limiti

Il rilascio open source del dataset e del framework di valutazione permette alla comunità di riprodurre e ampliare i test, favorendo trasparenza e ricerca collaborativa. Tuttavia, la decisione di non rendere pubblico l’agente di difesa completo riflette una valutazione prudente dei rischi operativi e della potenziale riutilizzabilità dei tool per fini offensivi.

Nel complesso, il benchmark sottolinea la necessità di strumenti di difesa più specializzati e di politiche che bilancino la condivisione scientifica con la prevenzione dell’abuso tecnologico, per proteggere gli utenti e l’infrastruttura finanziaria decentralizzata.