Het Bouwen van Productieklare Probes Voor Gemini
Building Production-Ready Probes For Gemini
January 16, 2026
Auteurs: János Kramár, Joshua Engels, Zheng Wang, Bilal Chughtai, Rohin Shah, Neel Nanda, Arthur Conmy
cs.AI
Samenvatting
De mogelijkheden van geavanceerde taalmodeltechnologie verbeteren snel. Daarom zijn sterkere maatregelen nodig om misbruik van deze krachtigere systemen door kwaadwillenden te voorkomen. Eerder onderzoek heeft aangetoond dat activatietests een veelbelovende techniek kunnen zijn om misbruik tegen te gaan, maar wij identificeren een belangrijk resterend probleem: deze tests generaliseren niet goed onder essentiële distributieverschuivingen in productieomgevingen. Met name de overgang van invoer met korte context naar invoer met lange context blijkt moeilijk voor bestaande testarchitecturen. Wij stellen verschillende nieuwe testarchitecturen voor die deze distributieverschuiving voor lange context aanpakken.
Wij evalueren deze tests binnen het cyberoffensieve domein en toetsen hun robuustheid tegen verschillende productiegerelateerde verschuivingen, waaronder meerzijdige gesprekken, statische jailbreaks en adaptieve red teaming. Onze resultaten tonen aan dat hoewel multimax de contextlengte adresseert, een combinatie van architectuurkeuze en training op diverse distributies nodig is voor brede generalisatie. Daarnaast laten wij zien dat het combineren van tests met geprompte classificatoren optimale nauwkeurigheid bereikt tegen lage kosten dankzij de computationele efficiëntie van tests.
Deze bevindingen hebben bijgedragen aan de succesvolle implementatie van misbruikpreventietests in gebruikersgerichte instanties van Gemini, Google's geavanceerde taalmodel. Tenslotte constateren wij eerste positieve resultaten met AlphaEvolve voor het automatiseren van verbeteringen in zowel testarchitectuurzoektochten als adaptieve red teaming, wat aantoont dat automatisering van sommig AI-veiligheidsonderzoek reeds mogelijk is.
English
Frontier language model capabilities are improving rapidly. We thus need stronger mitigations against bad actors misusing increasingly powerful systems. Prior work has shown that activation probes may be a promising misuse mitigation technique, but we identify a key remaining challenge: probes fail to generalize under important production distribution shifts. In particular, we find that the shift from short-context to long-context inputs is difficult for existing probe architectures. We propose several new probe architecture that handle this long-context distribution shift.
We evaluate these probes in the cyber-offensive domain, testing their robustness against various production-relevant shifts, including multi-turn conversations, static jailbreaks, and adaptive red teaming. Our results demonstrate that while multimax addresses context length, a combination of architecture choice and training on diverse distributions is required for broad generalization. Additionally, we show that pairing probes with prompted classifiers achieves optimal accuracy at a low cost due to the computational efficiency of probes.
These findings have informed the successful deployment of misuse mitigation probes in user-facing instances of Gemini, Google's frontier language model. Finally, we find early positive results using AlphaEvolve to automate improvements in both probe architecture search and adaptive red teaming, showing that automating some AI safety research is already possible.