ジェミニに対する間接的プロンプトインジェクション防御から得られた教訓
Lessons from Defending Gemini Against Indirect Prompt Injections
May 20, 2025
著者: Chongyang Shi, Sharon Lin, Shuang Song, Jamie Hayes, Ilia Shumailov, Itay Yona, Juliette Pluto, Aneesh Pappu, Christopher A. Choquette-Choo, Milad Nasr, Chawin Sitawarin, Gena Gibson, Andreas Terzis, John "Four" Flynn
cs.AI
要旨
Geminiは、ユーザーの代わりにタスクを実行するためにますます利用されており、関数呼び出しやツール使用の機能により、モデルがユーザーデータにアクセスできるようになっています。しかし、一部のツールは信頼できないデータへのアクセスを必要とし、リスクを引き起こす可能性があります。攻撃者は、信頼できないデータに悪意のある指示を埋め込むことで、モデルがユーザーの期待から逸脱し、データや権限を誤って扱うように仕向けることができます。本報告書では、Google DeepMindがGeminiモデルの敵対的ロバスト性を評価するためのアプローチを説明し、そのプロセスから得られた主な教訓を記述します。我々は、Geminiが高度な攻撃者に対してどのように振る舞うかを、敵対的評価フレームワークを通じてテストします。このフレームワークは、過去、現在、未来のバージョンのGeminiに対して継続的に実行される一連の適応型攻撃技術を展開します。これらの継続的な評価が、Geminiを操作に対する耐性を高めるために直接どのように役立つかを説明します。
English
Gemini is increasingly used to perform tasks on behalf of users, where
function-calling and tool-use capabilities enable the model to access user
data. Some tools, however, require access to untrusted data introducing risk.
Adversaries can embed malicious instructions in untrusted data which cause the
model to deviate from the user's expectations and mishandle their data or
permissions. In this report, we set out Google DeepMind's approach to
evaluating the adversarial robustness of Gemini models and describe the main
lessons learned from the process. We test how Gemini performs against a
sophisticated adversary through an adversarial evaluation framework, which
deploys a suite of adaptive attack techniques to run continuously against past,
current, and future versions of Gemini. We describe how these ongoing
evaluations directly help make Gemini more resilient against manipulation.Summary
AI-Generated Summary