ChatPaper.aiChatPaper

제미니를 위한 프로덕션 준비 프로브 구축

Building Production-Ready Probes For Gemini

January 16, 2026
저자: János Kramár, Joshua Engels, Zheng Wang, Bilal Chughtai, Rohin Shah, Neel Nanda, Arthur Conmy
cs.AI

초록

최첨단 언어 모델의 성능이 빠르게 향상됨에 따라, 점점 더 강력해지는 시스템을 악용하려는 악의적 행위자에 대한 보다 강력한 완화 방안이 필요해졌습니다. 선행 연구에서는 활성화 프로브가 유망한 오용 완화 기술일 수 있음을 보여주었으나, 우리는 중요한 잔여 과제를 확인했습니다: 프로브가 실제 운영 환경에서 발생하는 중요한 분포 변화에 대해 일반화되지 못한다는 점입니다. 특히, 단문 컨텍스트 입력에서 장문 컨텍스트 입력으로의 전환은 기존 프로브 아키텍처가 처리하기 어려운 것으로 나타났습니다. 우리는 이러한 장문 컨텍스트 분포 변화를 처리하는 몇 가지 새로운 프로브 아키텍처를 제안합니다. 우리는 사이버 공격 분야에서 이러한 프로브를 평가하며, 다중 회차 대화, 정적 탈옥, 적응형 레드 팀링 등 실제 운영 환경과 관련된 다양한 변화에 대한 프로브의 견고성을 테스트했습니다. 결과에 따르면, 멀티맥스가 컨텍스트 길이 문제는 해결하지만, 광범위한 일반화를 위해서는 아키텍처 선택과 다양한 분포에 대한 훈련을 결합해야 합니다. 또한, 프로브의 계산 효율성 덕분에 프로브에 프롬프트 기반 분류기를 결합하면 낮은 비용으로 최적의 정확도를 달성할 수 있음을 보여줍니다. 이러한 연구 결과는 Google의 최첨단 언어 모델인 Gemini의 사용자 대상 인스턴스에 오용 완화 프로브를 성공적으로 배포하는 데 기여했습니다. 마지막으로, AlphaEvolve를 사용하여 프로브 아키텍처 탐색과 적응형 레� 팀링 개선을 자동화한 초기 긍정적인 결과를 확인했으며, 이는 일부 AI 안전성 연구의 자동화가 이미 가능함을 시사합니다.
English
Frontier language model capabilities are improving rapidly. We thus need stronger mitigations against bad actors misusing increasingly powerful systems. Prior work has shown that activation probes may be a promising misuse mitigation technique, but we identify a key remaining challenge: probes fail to generalize under important production distribution shifts. In particular, we find that the shift from short-context to long-context inputs is difficult for existing probe architectures. We propose several new probe architecture that handle this long-context distribution shift. We evaluate these probes in the cyber-offensive domain, testing their robustness against various production-relevant shifts, including multi-turn conversations, static jailbreaks, and adaptive red teaming. Our results demonstrate that while multimax addresses context length, a combination of architecture choice and training on diverse distributions is required for broad generalization. Additionally, we show that pairing probes with prompted classifiers achieves optimal accuracy at a low cost due to the computational efficiency of probes. These findings have informed the successful deployment of misuse mitigation probes in user-facing instances of Gemini, Google's frontier language model. Finally, we find early positive results using AlphaEvolve to automate improvements in both probe architecture search and adaptive red teaming, showing that automating some AI safety research is already possible.
PDF32January 20, 2026