Lessons uit de verdediging van Gemini tegen indirecte promptinjecties
Lessons from Defending Gemini Against Indirect Prompt Injections
May 20, 2025
Auteurs: Chongyang Shi, Sharon Lin, Shuang Song, Jamie Hayes, Ilia Shumailov, Itay Yona, Juliette Pluto, Aneesh Pappu, Christopher A. Choquette-Choo, Milad Nasr, Chawin Sitawarin, Gena Gibson, Andreas Terzis, John "Four" Flynn
cs.AI
Samenvatting
Gemini wordt steeds vaker gebruikt om taken uit te voeren namens gebruikers, waarbij functie-aanroep- en toolgebruiksmogelijkheden het model in staat stellen om gebruikersgegevens te benaderen. Sommige tools vereisen echter toegang tot niet-vertrouwde gegevens, wat risico's met zich meebrengt. Tegenstanders kunnen kwaadaardige instructies in niet-vertrouwde gegevens inbedden, waardoor het model afwijkt van de verwachtingen van de gebruiker en hun gegevens of rechten verkeerd behandelt. In dit rapport presenteren we de aanpak van Google DeepMind voor het evalueren van de adversariële robuustheid van Gemini-modellen en beschrijven we de belangrijkste lessen die uit het proces zijn getrokken. We testen hoe Gemini presteert tegen een geavanceerde tegenstander via een adversariële evaluatieframework, dat een reeks adaptieve aanvalstechnieken inzet om continu te worden uitgevoerd tegen eerdere, huidige en toekomstige versies van Gemini. We beschrijven hoe deze doorlopende evaluaties direct bijdragen aan het weerbaarder maken van Gemini tegen manipulatie.
English
Gemini is increasingly used to perform tasks on behalf of users, where
function-calling and tool-use capabilities enable the model to access user
data. Some tools, however, require access to untrusted data introducing risk.
Adversaries can embed malicious instructions in untrusted data which cause the
model to deviate from the user's expectations and mishandle their data or
permissions. In this report, we set out Google DeepMind's approach to
evaluating the adversarial robustness of Gemini models and describe the main
lessons learned from the process. We test how Gemini performs against a
sophisticated adversary through an adversarial evaluation framework, which
deploys a suite of adaptive attack techniques to run continuously against past,
current, and future versions of Gemini. We describe how these ongoing
evaluations directly help make Gemini more resilient against manipulation.Summary
AI-Generated Summary