Entwicklung produktionsreifer Sonden für Gemini
Building Production-Ready Probes For Gemini
January 16, 2026
papers.authors: János Kramár, Joshua Engels, Zheng Wang, Bilal Chughtai, Rohin Shah, Neel Nanda, Arthur Conmy
cs.AI
papers.abstract
Die Fähigkeiten von fortschrittlichen Sprachmodellen verbessern sich rapide. Daher benötigen wir stärkere Gegenmaßnahmen gegen missbräuchliche Nutzung leistungsfähigerer Systeme durch böswillige Akteure. Frühere Arbeiten haben gezeigt, dass Aktivierungs-Probes eine vielversprechende Technik zur Missbrauchsvermeidung sein könnten, doch wir identifizieren eine entscheidende verbleibende Herausforderung: Probes generalisieren nicht unter wichtigen Produktions-Distributionsverschiebungen. Insbesondere stellen wir fest, dass der Wechsel von Eingaben mit kurzem Kontext zu solchen mit langem Kontext für bestehende Probe-Architekturen problematisch ist. Wir schlagen mehrere neue Probe-Architekturen vor, die diese Distributionsverschiebung bei langem Kontext bewältigen.
Wir evaluieren diese Probes im Bereich cyber-offensiver Angriffe und testen ihre Robustheit gegenüber verschiedenen produktionsrelevanten Verschiebungen, einschließlich Mehrfach-Dialogen, statischen Jailbreaks und adaptivem Red Teaming. Unsere Ergebnisse zeigen, dass zwar Multimax die Kontextlänge adressiert, für breite Generalisierung jedoch eine Kombination aus Architekturauswahl und Training auf diversen Verteilungen erforderlich ist. Zusätzlich demonstrieren wir, dass die Kombination von Probes mit Prompt-basierten Klassifikatoren aufgrund der recheneffizienten Natur von Probes eine optimale Genauigkeit bei geringen Kosten erreicht.
Diese Erkenntnisse haben die erfolgreiche Implementierung von Missbrauchsvermeidungs-Probes in nutzerorientierten Instanzen von Gemini, Googles modernstem Sprachmodell, ermöglicht. Abschließend verzeichnen wir erste positive Ergebnisse mit AlphaEvolve zur Automatisierung von Verbesserungen sowohl in der Probe-Architektursuche als auch im adaptiven Red Teaming, was zeigt, dass die Automatisierung eines Teils der KI-Sicherheitsforschung bereits möglich ist.
English
Frontier language model capabilities are improving rapidly. We thus need stronger mitigations against bad actors misusing increasingly powerful systems. Prior work has shown that activation probes may be a promising misuse mitigation technique, but we identify a key remaining challenge: probes fail to generalize under important production distribution shifts. In particular, we find that the shift from short-context to long-context inputs is difficult for existing probe architectures. We propose several new probe architecture that handle this long-context distribution shift.
We evaluate these probes in the cyber-offensive domain, testing their robustness against various production-relevant shifts, including multi-turn conversations, static jailbreaks, and adaptive red teaming. Our results demonstrate that while multimax addresses context length, a combination of architecture choice and training on diverse distributions is required for broad generalization. Additionally, we show that pairing probes with prompted classifiers achieves optimal accuracy at a low cost due to the computational efficiency of probes.
These findings have informed the successful deployment of misuse mitigation probes in user-facing instances of Gemini, Google's frontier language model. Finally, we find early positive results using AlphaEvolve to automate improvements in both probe architecture search and adaptive red teaming, showing that automating some AI safety research is already possible.