ChatPaper.aiChatPaper

Développement de sondes prêtes pour la production pour Gemini

Building Production-Ready Probes For Gemini

January 16, 2026
papers.authors: János Kramár, Joshua Engels, Zheng Wang, Bilal Chughtai, Rohin Shah, Neel Nanda, Arthur Conmy
cs.AI

papers.abstract

Les capacités des modèles de langage de pointe s'améliorent rapidement. Nous avons donc besoin de mesures d'atténuation plus robustes contre les mauvais acteurs qui pourraient détourner des systèmes de plus en plus puissants. Des travaux antérieurs ont montré que les sondes d'activation constituent une technique prometteuse pour atténuer les mauvais usages, mais nous identifions un défi majeur persistant : les sondes échouent à généraliser leur comportement face à d'importants décalages de distribution en conditions réelles. Nous constatons en particulier que le passage d'entrées à contexte court à des entrées à contexte long est difficile pour les architectures de sondes existantes. Nous proposons plusieurs nouvelles architectures de sondes capables de gérer ce décalage de distribution vers les contextes longs. Nous évaluons ces sondes dans le domaine cyber-offensif, en testant leur robustesse contre divers décalages pertinents pour la production, incluant les conversations multi-tours, les jailbreaks statiques et les tests d'intrusion adaptatifs. Nos résultats démontrent que si des approches comme multimax abordent la longueur du contexte, une combinaison entre le choix architectural et l'entraînement sur des distributions variées est nécessaire pour une généralisation étendue. De plus, nous montrons que l'association de sondes avec des classifieurs basés sur des prompts permet d'atteindre une précision optimale à un coût réduit, grâce à l'efficacité computationnelle des sondes. Ces résultats ont contribué au déploiement réussi de sondes d'atténuation des mauvais usages dans les instances accessibles aux utilisateurs de Gemini, le modèle de langage de pointe de Google. Enfin, nous obtenons des résultats préliminaires positifs en utilisant AlphaEvolve pour automatiser les améliorations à la fois dans la recherche d'architectures de sondes et dans les tests d'intrusion adaptatifs, montrant qu'il est déjà possible d'automatiser certaines recherches en sécurité de l'IA.
English
Frontier language model capabilities are improving rapidly. We thus need stronger mitigations against bad actors misusing increasingly powerful systems. Prior work has shown that activation probes may be a promising misuse mitigation technique, but we identify a key remaining challenge: probes fail to generalize under important production distribution shifts. In particular, we find that the shift from short-context to long-context inputs is difficult for existing probe architectures. We propose several new probe architecture that handle this long-context distribution shift. We evaluate these probes in the cyber-offensive domain, testing their robustness against various production-relevant shifts, including multi-turn conversations, static jailbreaks, and adaptive red teaming. Our results demonstrate that while multimax addresses context length, a combination of architecture choice and training on diverse distributions is required for broad generalization. Additionally, we show that pairing probes with prompted classifiers achieves optimal accuracy at a low cost due to the computational efficiency of probes. These findings have informed the successful deployment of misuse mitigation probes in user-facing instances of Gemini, Google's frontier language model. Finally, we find early positive results using AlphaEvolve to automate improvements in both probe architecture search and adaptive red teaming, showing that automating some AI safety research is already possible.
PDF32January 20, 2026