ChatPaper.aiChatPaper

Leçons tirées de la défense de Gemini contre les injections indirectes de prompts

Lessons from Defending Gemini Against Indirect Prompt Injections

May 20, 2025
Auteurs: Chongyang Shi, Sharon Lin, Shuang Song, Jamie Hayes, Ilia Shumailov, Itay Yona, Juliette Pluto, Aneesh Pappu, Christopher A. Choquette-Choo, Milad Nasr, Chawin Sitawarin, Gena Gibson, Andreas Terzis, John "Four" Flynn
cs.AI

Résumé

Gemini est de plus en plus utilisé pour exécuter des tâches au nom des utilisateurs, où les capacités d'appel de fonction et d'utilisation d'outils permettent au modèle d'accéder aux données des utilisateurs. Cependant, certains outils nécessitent l'accès à des données non fiables, introduisant ainsi des risques. Des adversaires peuvent intégrer des instructions malveillantes dans ces données non fiables, ce qui peut amener le modèle à s'écarter des attentes de l'utilisateur et à mal gérer ses données ou ses autorisations. Dans ce rapport, nous présentons l'approche de Google DeepMind pour évaluer la robustesse adversarial des modèles Gemini et décrivons les principales leçons tirées de ce processus. Nous testons comment Gemini se comporte face à un adversaire sophistiqué grâce à un cadre d'évaluation adversarial, qui déploie une série de techniques d'attaque adaptatives pour fonctionner en continu contre les versions passées, actuelles et futures de Gemini. Nous expliquons comment ces évaluations continues contribuent directement à renforcer la résilience de Gemini contre les manipulations.
English
Gemini is increasingly used to perform tasks on behalf of users, where function-calling and tool-use capabilities enable the model to access user data. Some tools, however, require access to untrusted data introducing risk. Adversaries can embed malicious instructions in untrusted data which cause the model to deviate from the user's expectations and mishandle their data or permissions. In this report, we set out Google DeepMind's approach to evaluating the adversarial robustness of Gemini models and describe the main lessons learned from the process. We test how Gemini performs against a sophisticated adversary through an adversarial evaluation framework, which deploys a suite of adaptive attack techniques to run continuously against past, current, and future versions of Gemini. We describe how these ongoing evaluations directly help make Gemini more resilient against manipulation.

Summary

AI-Generated Summary

PDF51May 21, 2025