Construindo Probes Prontos para Produção para o Gemini
Building Production-Ready Probes For Gemini
January 16, 2026
Autores: János Kramár, Joshua Engels, Zheng Wang, Bilal Chughtai, Rohin Shah, Neel Nanda, Arthur Conmy
cs.AI
Resumo
As capacidades dos modelos de linguagem de fronteira estão a melhorar rapidamente. Por isso, precisamos de mitigações mais robustas contra agentes mal-intencionados que utilizem indevidamente sistemas cada vez mais poderosos. Trabalhos anteriores mostraram que as sondas de ativação podem ser uma técnica promissora de mitigação de uso indevido, mas identificámos um desafio fundamental remanescente: as sondas não conseguem generalizar sob mudanças de distribuição importantes em produção. Em particular, verificamos que a transição de inputs de contexto curto para inputs de contexto longo é difícil para as arquiteturas de sondas existentes. Propomos várias novas arquiteturas de sonda que lidam com esta mudança de distribuição de contexto longo.
Avaliámos estas sondas no domínio cibernético ofensivo, testando a sua robustez contra várias mudanças relevantes para produção, incluindo conversas multi-turno, *jailbreaks* estáticos e *red teaming* adaptativo. Os nossos resultados demonstram que, embora a abordagem multimax aborde o comprimento do contexto, é necessária uma combinação da escolha da arquitetura e do treino em distribuições diversificadas para uma generalização abrangente. Adicionalmente, mostramos que emparelhar sondas com classificadores baseados em *prompts* atinge uma precisão ótima a um custo reduzido, devido à eficiência computacional das sondas.
Estas descobertas informaram a implementação bem-sucedida de sondas de mitigação de uso indevido em instâncias do Gemini, o modelo de linguagem de fronteira da Google, voltadas para o utilizador. Finalmente, obtivemos resultados positivos preliminares usando o AlphaEvolve para automatizar melhorias tanto na pesquisa de arquitetura de sondas como no *red teaming* adaptativo, mostrando que já é possível automatizar parte da investigação em segurança de IA.
English
Frontier language model capabilities are improving rapidly. We thus need stronger mitigations against bad actors misusing increasingly powerful systems. Prior work has shown that activation probes may be a promising misuse mitigation technique, but we identify a key remaining challenge: probes fail to generalize under important production distribution shifts. In particular, we find that the shift from short-context to long-context inputs is difficult for existing probe architectures. We propose several new probe architecture that handle this long-context distribution shift.
We evaluate these probes in the cyber-offensive domain, testing their robustness against various production-relevant shifts, including multi-turn conversations, static jailbreaks, and adaptive red teaming. Our results demonstrate that while multimax addresses context length, a combination of architecture choice and training on diverse distributions is required for broad generalization. Additionally, we show that pairing probes with prompted classifiers achieves optimal accuracy at a low cost due to the computational efficiency of probes.
These findings have informed the successful deployment of misuse mitigation probes in user-facing instances of Gemini, Google's frontier language model. Finally, we find early positive results using AlphaEvolve to automate improvements in both probe architecture search and adaptive red teaming, showing that automating some AI safety research is already possible.