Geminiの本番環境対応プローブの構築
Building Production-Ready Probes For Gemini
January 16, 2026
著者: János Kramár, Joshua Engels, Zheng Wang, Bilal Chughtai, Rohin Shah, Neel Nanda, Arthur Conmy
cs.AI
要旨
最先端言語モデルの能力は急速に進化している。これに伴い、強力化するシステムの悪用を防ぐため、より強固な緩和策が求められている。従来の研究では、活性化プローブが有望な悪用緩和技術であることが示されてきたが、重要な課題が残されている:プローブは実運用上の重要な分布シフトにおいて一般化に失敗するのである。特に、短い文脈から長い文脈への入力の変化は、既存のプローブアーキテクチャにとって困難であることがわかった。我々は、この長文脈分布シフトに対処するいくつかの新しいプローブアーキテクチャを提案する。
これらのプローブをサイバー攻撃領域で評価し、マルチターン会話、静的ジャイルブレイク、適応的レッドチーミングなど、実運用に関連する様々なシフトに対する頑健性をテストした。結果は、マルチマックスが文脈長に対処する一方、広範な一般化には、アーキテクチャの選択と多様な分布での学習の組み合わせが必要であることを示している。さらに、プローブをプロンプト分類器と組み合わせることで、プローブの計算効率の高さにより、低コストで最適な精度が達成できることを示す。
これらの知見は、Googleの最先端言語モデルであるGeminiのユーザー向けインスタンスにおいて、悪用緩和プローブの導入成功に貢献した。最後に、AlphaEvolveを用いてプローブアーキテクチャ探索と適応的レッドチーミングの両方を自動改善する初期の良好な結果を得て、AI安全性研究の一部を自動化することは既に可能であることを示唆する。
English
Frontier language model capabilities are improving rapidly. We thus need stronger mitigations against bad actors misusing increasingly powerful systems. Prior work has shown that activation probes may be a promising misuse mitigation technique, but we identify a key remaining challenge: probes fail to generalize under important production distribution shifts. In particular, we find that the shift from short-context to long-context inputs is difficult for existing probe architectures. We propose several new probe architecture that handle this long-context distribution shift.
We evaluate these probes in the cyber-offensive domain, testing their robustness against various production-relevant shifts, including multi-turn conversations, static jailbreaks, and adaptive red teaming. Our results demonstrate that while multimax addresses context length, a combination of architecture choice and training on diverse distributions is required for broad generalization. Additionally, we show that pairing probes with prompted classifiers achieves optimal accuracy at a low cost due to the computational efficiency of probes.
These findings have informed the successful deployment of misuse mitigation probes in user-facing instances of Gemini, Google's frontier language model. Finally, we find early positive results using AlphaEvolve to automate improvements in both probe architecture search and adaptive red teaming, showing that automating some AI safety research is already possible.