Desarrollo de Sondas Listas para Producción para Gemini
Building Production-Ready Probes For Gemini
January 16, 2026
Autores: János Kramár, Joshua Engels, Zheng Wang, Bilal Chughtai, Rohin Shah, Neel Nanda, Arthur Conmy
cs.AI
Resumen
Las capacidades de los modelos lingüísticos de vanguardia están mejorando rápidamente. Por lo tanto, necesitamos mitigaciones más sólidas contra el uso indebido de sistemas cada vez más potentes por parte de actores malintencionados. Trabajos anteriores han demostrado que los *probes* de activación pueden ser una técnica de mitigación de uso indebido prometedora, pero identificamos un desafío clave pendiente: los *probes* no logran generalizarse bajo importantes cambios de distribución en entornos de producción. En particular, encontramos que la transición de entradas de contexto corto a contexto largo es difícil para las arquitecturas de *probes* existentes. Proponemos varias nuevas arquitecturas de *probes* que manejan este cambio de distribución de contexto largo.
Evaluamos estos *probes* en el dominio ciberofensivo, probando su robustez frente a varios cambios relevantes para la producción, incluyendo conversaciones multiturno, *jailbreaks* estáticos y pruebas de penetración adaptativas (*red teaming*). Nuestros resultados demuestran que, si bien *multimax* aborda la longitud del contexto, se requiere una combinación de elección arquitectónica y entrenamiento en distribuciones diversas para una generalización amplia. Adicionalmente, mostramos que emparejar *probes* con clasificadores basados en *prompts* logra una precisión óptima a un bajo costo debido a la eficiencia computacional de los *probes*.
Estos hallazgos han informado el despliegue exitoso de *probes* de mitigación de uso indebido en las instancias de Gemini orientadas al usuario, el modelo lingüístico de vanguardia de Google. Finalmente, obtenemos resultados positivos preliminares usando AlphaEvolve para automatizar mejoras tanto en la búsqueda de arquitecturas de *probes* como en las pruebas de penetración adaptativas, mostrando que ya es posible automatizar parte de la investigación en seguridad de la IA.
English
Frontier language model capabilities are improving rapidly. We thus need stronger mitigations against bad actors misusing increasingly powerful systems. Prior work has shown that activation probes may be a promising misuse mitigation technique, but we identify a key remaining challenge: probes fail to generalize under important production distribution shifts. In particular, we find that the shift from short-context to long-context inputs is difficult for existing probe architectures. We propose several new probe architecture that handle this long-context distribution shift.
We evaluate these probes in the cyber-offensive domain, testing their robustness against various production-relevant shifts, including multi-turn conversations, static jailbreaks, and adaptive red teaming. Our results demonstrate that while multimax addresses context length, a combination of architecture choice and training on diverse distributions is required for broad generalization. Additionally, we show that pairing probes with prompted classifiers achieves optimal accuracy at a low cost due to the computational efficiency of probes.
These findings have informed the successful deployment of misuse mitigation probes in user-facing instances of Gemini, Google's frontier language model. Finally, we find early positive results using AlphaEvolve to automate improvements in both probe architecture search and adaptive red teaming, showing that automating some AI safety research is already possible.