Разработка готовых к эксплуатации зондов для Gemini
Building Production-Ready Probes For Gemini
January 16, 2026
Авторы: János Kramár, Joshua Engels, Zheng Wang, Bilal Chughtai, Rohin Shah, Neel Nanda, Arthur Conmy
cs.AI
Аннотация
Возможности передовых языковых моделей стремительно улучшаются. Следовательно, нам требуются более надежные механизмы защиты от злонамеренного использования все более мощных систем. Предыдущие исследования показали, что зонды активации могут быть перспективной методикой предотвращения misuse, однако мы выявили ключевую нерешенную проблему: зонды не обладают достаточной обобщающей способностью при важных для производства сдвигах распределения данных. В частности, мы обнаружили, что переход от коротких контекстов к длинным представляет сложность для существующих архитектур зондов. Мы предлагаем несколько новых архитектур зондов, которые справляются с этим сдвигом распределения в сторону длинных контекстов.
Мы оцениваем эти зонды в киберофензивной области, тестируя их устойчивость к различным сдвигам, релевантным для production-среды, включая многотактовые диалоги, статические джейлбрейки и адаптивный редтиминг. Наши результаты показывают, что хотя новая архитектура решает проблему длины контекста, для широкого обобщения требуется сочетание выбора архитектуры и обучения на разнообразных распределениях. Кроме того, мы демонстрируем, что совместное использование зондов с промпт-классификаторами позволяет достичь оптимальной точности при низких затратах благодаря вычислительной эффективности зондов.
Эти результаты легли в основу успешного внедрения зондов предотвращения misuse в пользовательские экземпляры Gemini, передовой языковой модели Google. Наконец, мы получаем первые обнадеживающие результаты использования AlphaEvolve для автоматизации улучшений как в поиске архитектур зондов, так и в адаптивном редтиминге, что демонстрирует возможность автоматизации некоторых направлений исследований в области безопасности ИИ уже сейчас.
English
Frontier language model capabilities are improving rapidly. We thus need stronger mitigations against bad actors misusing increasingly powerful systems. Prior work has shown that activation probes may be a promising misuse mitigation technique, but we identify a key remaining challenge: probes fail to generalize under important production distribution shifts. In particular, we find that the shift from short-context to long-context inputs is difficult for existing probe architectures. We propose several new probe architecture that handle this long-context distribution shift.
We evaluate these probes in the cyber-offensive domain, testing their robustness against various production-relevant shifts, including multi-turn conversations, static jailbreaks, and adaptive red teaming. Our results demonstrate that while multimax addresses context length, a combination of architecture choice and training on diverse distributions is required for broad generalization. Additionally, we show that pairing probes with prompted classifiers achieves optimal accuracy at a low cost due to the computational efficiency of probes.
These findings have informed the successful deployment of misuse mitigation probes in user-facing instances of Gemini, Google's frontier language model. Finally, we find early positive results using AlphaEvolve to automate improvements in both probe architecture search and adaptive red teaming, showing that automating some AI safety research is already possible.