ChatPaper.aiChatPaper

Lezioni dalla difesa di Gemini contro gli attacchi di iniezione indiretta di prompt

Lessons from Defending Gemini Against Indirect Prompt Injections

May 20, 2025
Autori: Chongyang Shi, Sharon Lin, Shuang Song, Jamie Hayes, Ilia Shumailov, Itay Yona, Juliette Pluto, Aneesh Pappu, Christopher A. Choquette-Choo, Milad Nasr, Chawin Sitawarin, Gena Gibson, Andreas Terzis, John "Four" Flynn
cs.AI

Abstract

Gemini viene sempre più utilizzato per eseguire attività per conto degli utenti, dove le capacità di chiamata di funzioni e utilizzo di strumenti consentono al modello di accedere ai dati degli utenti. Alcuni strumenti, tuttavia, richiedono l'accesso a dati non attendibili, introducendo rischi. Gli avversari possono incorporare istruzioni malevole in dati non attendibili, facendo deviare il modello dalle aspettative dell'utente e gestendo in modo errato i loro dati o permessi. In questo rapporto, illustriamo l'approccio di Google DeepMind per valutare la robustezza avversaria dei modelli Gemini e descriviamo le principali lezioni apprese dal processo. Testiamo come Gemini si comporta contro un avversario sofisticato attraverso un framework di valutazione avversaria, che impiega una serie di tecniche di attacco adattive per operare continuamente su versioni passate, presenti e future di Gemini. Descriviamo come queste valutazioni in corso contribuiscano direttamente a rendere Gemini più resistente alle manipolazioni.
English
Gemini is increasingly used to perform tasks on behalf of users, where function-calling and tool-use capabilities enable the model to access user data. Some tools, however, require access to untrusted data introducing risk. Adversaries can embed malicious instructions in untrusted data which cause the model to deviate from the user's expectations and mishandle their data or permissions. In this report, we set out Google DeepMind's approach to evaluating the adversarial robustness of Gemini models and describe the main lessons learned from the process. We test how Gemini performs against a sophisticated adversary through an adversarial evaluation framework, which deploys a suite of adaptive attack techniques to run continuously against past, current, and future versions of Gemini. We describe how these ongoing evaluations directly help make Gemini more resilient against manipulation.
PDF82May 21, 2025