Sviluppo di Sonde Pronte per la Produzione per Gemini
Building Production-Ready Probes For Gemini
January 16, 2026
Autori: János Kramár, Joshua Engels, Zheng Wang, Bilal Chughtai, Rohin Shah, Neel Nanda, Arthur Conmy
cs.AI
Abstract
Le capacità all'avanguardia dei modelli linguistici stanno migliorando rapidamente. Di conseguenza, sono necessarie mitigazioni più robuste contro l'uso improprio di sistemi sempre più potenti da parte di attori malevoli. Ricerche precedenti hanno dimostrato che le sonde di attivazione possono essere una tecnica promettente per mitigare l'uso improprio, ma identifichiamo una sfida cruciale rimanente: le sonde non riescono a generalizzare in presenza di importanti cambiamenti distributivi tipici degli ambienti produttivi. In particolare, scopriamo che il passaggio da input a contesto breve a input a contesto lungo è difficile per le architetture di sonde esistenti. Proponiamo diverse nuove architetture di sonde che gestiscono questo cambiamento distributivo verso contesti lunghi.
Valutiamo queste sonde nel dominio cyber-offensivo, testandone la robustezza contro vari cambiamenti rilevanti per la produzione, incluse conversazioni a più turni, jailbreak statici e red teaming adattivo. I nostri risultati dimostrano che, sebbene l'approccio multimax affronti la lunghezza del contesto, per un'ampia generalizzazione è necessaria una combinazione tra la scelta architetturale e l'addestramento su distribuzioni diversificate. Inoltre, mostriamo che l'abbinamento di sonde con classificatori basati su prompt raggiunge un'accuratezza ottimale a basso costo, grazie all'efficienza computazionale delle sonde.
Questi risultati hanno guidato il dispiegamento con successo di sonde per la mitigazione dell'uso improprio nelle istanze di Gemini, il modello linguistico all'avanguardia di Google, esposte agli utenti. Infine, otteniamo primi risultati positivi utilizzando AlphaEvolve per automatizzare i miglioramenti sia nella ricerca architetturale delle sonde che nel red teaming adattivo, dimostrando che l'automazione di alcune ricerche sulla sicurezza dell'IA è già possibile.
English
Frontier language model capabilities are improving rapidly. We thus need stronger mitigations against bad actors misusing increasingly powerful systems. Prior work has shown that activation probes may be a promising misuse mitigation technique, but we identify a key remaining challenge: probes fail to generalize under important production distribution shifts. In particular, we find that the shift from short-context to long-context inputs is difficult for existing probe architectures. We propose several new probe architecture that handle this long-context distribution shift.
We evaluate these probes in the cyber-offensive domain, testing their robustness against various production-relevant shifts, including multi-turn conversations, static jailbreaks, and adaptive red teaming. Our results demonstrate that while multimax addresses context length, a combination of architecture choice and training on diverse distributions is required for broad generalization. Additionally, we show that pairing probes with prompted classifiers achieves optimal accuracy at a low cost due to the computational efficiency of probes.
These findings have informed the successful deployment of misuse mitigation probes in user-facing instances of Gemini, Google's frontier language model. Finally, we find early positive results using AlphaEvolve to automate improvements in both probe architecture search and adaptive red teaming, showing that automating some AI safety research is already possible.