Уроки защиты Gemini от косвенных инъекций промптов
Lessons from Defending Gemini Against Indirect Prompt Injections
May 20, 2025
Авторы: Chongyang Shi, Sharon Lin, Shuang Song, Jamie Hayes, Ilia Shumailov, Itay Yona, Juliette Pluto, Aneesh Pappu, Christopher A. Choquette-Choo, Milad Nasr, Chawin Sitawarin, Gena Gibson, Andreas Terzis, John "Four" Flynn
cs.AI
Аннотация
Gemini всё чаще используется для выполнения задач от имени пользователей, где возможности вызова функций и использования инструментов позволяют модели получать доступ к данным пользователей. Однако некоторые инструменты требуют доступа к ненадёжным данным, что влечёт за собой риски. Злоумышленники могут внедрять вредоносные инструкции в ненадёжные данные, что приводит к отклонению модели от ожиданий пользователя и неправильной обработке их данных или прав доступа. В этом отчёте мы излагаем подход Google DeepMind к оценке устойчивости моделей Gemini к атакам и описываем основные уроки, извлечённые в процессе. Мы тестируем, как Gemini справляется с изощрённым противником, используя фреймворк для оценки устойчивости к атакам, который применяет набор адаптивных методов атак, непрерывно тестируя прошлые, текущие и будущие версии Gemini. Мы описываем, как эти постоянные оценки напрямую помогают сделать Gemini более устойчивой к манипуляциям.
English
Gemini is increasingly used to perform tasks on behalf of users, where
function-calling and tool-use capabilities enable the model to access user
data. Some tools, however, require access to untrusted data introducing risk.
Adversaries can embed malicious instructions in untrusted data which cause the
model to deviate from the user's expectations and mishandle their data or
permissions. In this report, we set out Google DeepMind's approach to
evaluating the adversarial robustness of Gemini models and describe the main
lessons learned from the process. We test how Gemini performs against a
sophisticated adversary through an adversarial evaluation framework, which
deploys a suite of adaptive attack techniques to run continuously against past,
current, and future versions of Gemini. We describe how these ongoing
evaluations directly help make Gemini more resilient against manipulation.Summary
AI-Generated Summary