Lecciones de la defensa de Gemini contra inyecciones indirectas de instrucciones
Lessons from Defending Gemini Against Indirect Prompt Injections
May 20, 2025
Autores: Chongyang Shi, Sharon Lin, Shuang Song, Jamie Hayes, Ilia Shumailov, Itay Yona, Juliette Pluto, Aneesh Pappu, Christopher A. Choquette-Choo, Milad Nasr, Chawin Sitawarin, Gena Gibson, Andreas Terzis, John "Four" Flynn
cs.AI
Resumen
Gemini se utiliza cada vez más para realizar tareas en nombre de los usuarios, donde las capacidades de llamada a funciones y uso de herramientas permiten al modelo acceder a los datos del usuario. Sin embargo, algunas herramientas requieren acceso a datos no confiables, lo que introduce riesgos. Los adversarios pueden incrustar instrucciones maliciosas en datos no confiables, lo que hace que el modelo se desvíe de las expectativas del usuario y maneje incorrectamente sus datos o permisos. En este informe, presentamos el enfoque de Google DeepMind para evaluar la robustez adversaria de los modelos Gemini y describimos las principales lecciones aprendidas durante el proceso. Evaluamos cómo se desempeña Gemini frente a un adversario sofisticado mediante un marco de evaluación adversaria, que despliega un conjunto de técnicas de ataque adaptativas que se ejecutan continuamente contra versiones pasadas, actuales y futuras de Gemini. Describimos cómo estas evaluaciones continuas contribuyen directamente a hacer que Gemini sea más resistente a la manipulación.
English
Gemini is increasingly used to perform tasks on behalf of users, where
function-calling and tool-use capabilities enable the model to access user
data. Some tools, however, require access to untrusted data introducing risk.
Adversaries can embed malicious instructions in untrusted data which cause the
model to deviate from the user's expectations and mishandle their data or
permissions. In this report, we set out Google DeepMind's approach to
evaluating the adversarial robustness of Gemini models and describe the main
lessons learned from the process. We test how Gemini performs against a
sophisticated adversary through an adversarial evaluation framework, which
deploys a suite of adaptive attack techniques to run continuously against past,
current, and future versions of Gemini. We describe how these ongoing
evaluations directly help make Gemini more resilient against manipulation.Summary
AI-Generated Summary