Lições da Defesa do Gemini Contra Injeções Indiretas de Prompts
Lessons from Defending Gemini Against Indirect Prompt Injections
May 20, 2025
Autores: Chongyang Shi, Sharon Lin, Shuang Song, Jamie Hayes, Ilia Shumailov, Itay Yona, Juliette Pluto, Aneesh Pappu, Christopher A. Choquette-Choo, Milad Nasr, Chawin Sitawarin, Gena Gibson, Andreas Terzis, John "Four" Flynn
cs.AI
Resumo
O Gemini está sendo cada vez mais utilizado para executar tarefas em nome dos usuários, onde as capacidades de chamada de funções e uso de ferramentas permitem que o modelo acesse os dados do usuário. Algumas ferramentas, no entanto, exigem acesso a dados não confiáveis, o que introduz riscos. Adversários podem incorporar instruções maliciosas em dados não confiáveis, fazendo com que o modelo se desvie das expectativas do usuário e manipule incorretamente seus dados ou permissões. Neste relatório, apresentamos a abordagem do Google DeepMind para avaliar a robustez adversária dos modelos Gemini e descrevemos as principais lições aprendidas com o processo. Testamos como o Gemini se comporta contra um adversário sofisticado por meio de um framework de avaliação adversária, que emprega um conjunto de técnicas de ataque adaptativas para operar continuamente contra versões passadas, atuais e futuras do Gemini. Descrevemos como essas avaliações contínuas ajudam diretamente a tornar o Gemini mais resistente à manipulação.
English
Gemini is increasingly used to perform tasks on behalf of users, where
function-calling and tool-use capabilities enable the model to access user
data. Some tools, however, require access to untrusted data introducing risk.
Adversaries can embed malicious instructions in untrusted data which cause the
model to deviate from the user's expectations and mishandle their data or
permissions. In this report, we set out Google DeepMind's approach to
evaluating the adversarial robustness of Gemini models and describe the main
lessons learned from the process. We test how Gemini performs against a
sophisticated adversary through an adversarial evaluation framework, which
deploys a suite of adaptive attack techniques to run continuously against past,
current, and future versions of Gemini. We describe how these ongoing
evaluations directly help make Gemini more resilient against manipulation.