ChatPaper.aiChatPaper

Lehren aus der Verteidigung von Gemini gegen indirekte Prompt-Injektionen

Lessons from Defending Gemini Against Indirect Prompt Injections

May 20, 2025
Autoren: Chongyang Shi, Sharon Lin, Shuang Song, Jamie Hayes, Ilia Shumailov, Itay Yona, Juliette Pluto, Aneesh Pappu, Christopher A. Choquette-Choo, Milad Nasr, Chawin Sitawarin, Gena Gibson, Andreas Terzis, John "Four" Flynn
cs.AI

Zusammenfassung

Gemini wird zunehmend eingesetzt, um Aufgaben im Namen von Nutzern auszuführen, wobei Funktionen wie Funktionsaufrufe und Werkzeugnutzung es dem Modell ermöglichen, auf Nutzerdaten zuzugreifen. Einige Werkzeuge erfordern jedoch den Zugriff auf nicht vertrauenswürdige Daten, was Risiken mit sich bringt. Angreifer können bösartige Anweisungen in nicht vertrauenswürdige Daten einbetten, die dazu führen, dass das Modell von den Erwartungen des Nutzers abweicht und dessen Daten oder Berechtigungen falsch handhabt. In diesem Bericht legen wir den Ansatz von Google DeepMind zur Bewertung der adversarischen Robustheit von Gemini-Modellen dar und beschreiben die wichtigsten Erkenntnisse aus diesem Prozess. Wir testen, wie Gemini gegen einen ausgeklügelten Angreifer abschneidet, indem wir ein adversarisches Bewertungsframework einsetzen, das eine Reihe adaptiver Angriffstechniken kontinuierlich gegen vergangene, aktuelle und zukünftige Versionen von Gemini anwendet. Wir beschreiben, wie diese fortlaufenden Bewertungen direkt dazu beitragen, Gemini widerstandsfähiger gegen Manipulationen zu machen.
English
Gemini is increasingly used to perform tasks on behalf of users, where function-calling and tool-use capabilities enable the model to access user data. Some tools, however, require access to untrusted data introducing risk. Adversaries can embed malicious instructions in untrusted data which cause the model to deviate from the user's expectations and mishandle their data or permissions. In this report, we set out Google DeepMind's approach to evaluating the adversarial robustness of Gemini models and describe the main lessons learned from the process. We test how Gemini performs against a sophisticated adversary through an adversarial evaluation framework, which deploys a suite of adaptive attack techniques to run continuously against past, current, and future versions of Gemini. We describe how these ongoing evaluations directly help make Gemini more resilient against manipulation.

Summary

AI-Generated Summary

PDF51May 21, 2025