ChatPaper.aiChatPaper

蒸留ゲーム:適応的攻撃と効率的な防御

The Distillation Game: Adaptive Attacks & Efficient Defenses

May 29, 2026
著者: Youssef Allouah, Mahdi Haghifam, Sanmi Koyejo, Reza Shokri
cs.AI

要旨

蒸留攻撃は、モデル提供者にとってデプロイメント上のトレードオフを生み出す。すなわち、モデルをより有用にする出力は、同時に模倣を容易にする可能性がある。我々は、効用制約を受ける教師と適応的な学生との間のミニマックスゲームを通じて、このトレードオフを研究する。本フレームワークは、扱いやすい一方的な応答ルールをもたらす。すなわち、学生が高価値の事例を再重み付けする適応的評価ルールと、蒸留に最も有用な出力を抑制する教師側の防御テンプレートである。事例価値の安価なプロキシから、我々はProduct-of-Experts(PoE)を導出する。これは、生成中に教師とプロキシ学生を組み合わせる、単純な順伝搬のみの防御である。経験的に、適応的評価は大きな受動-適応ギャップを明らかにする。最先端の防御において、適応的学生はGSM8KおよびMATHにおいて、受動的評価が示唆するよりもはるかに多くの能力を回復する。このより強力な評価の下では、高コストな防御とPoEとの間の見かけ上のロバスト性ギャップは大幅に縮小する一方、PoEははるかに低コストであり、より高品質な推論痕跡を保持する。全体として、我々の結果は、強力な蒸留を阻止することは依然として困難であり、反蒸留に関する進歩は受動的学生ではなく適応的学生に対して評価されるべきであることを示唆する。コードはhttps://github.com/ysfalh/distillation-gameで入手可能である。
English
Distillation attacks create a deployment trade-off for model providers: the same outputs that make a model more useful can also make it easier to imitate. We study this trade-off through a minimax game between a utility-constrained teacher and an adaptive student. Our framework yields tractable one-sided response rules: an adaptive evaluation rule in which the student reweights high-value examples, and a teacher-side defense template that suppresses outputs most useful for distillation. From a cheap proxy for example value, we derive Product-of-Experts (PoE), a simple forward-pass-only defense that combines the teacher with a proxy student during generation. Empirically, adaptive evaluation reveals a large passive--adaptive gap: on state-of-the-art defenses, adaptive students recover substantially more capability than passive evaluation suggests on GSM8K and MATH. Under this stronger evaluation, the apparent robustness gap between expensive defenses and PoE narrows considerably, while PoE remains substantially cheaper and preserves higher-quality reasoning traces. Overall, our results suggest that strong distillation remains difficult to stop, and that progress on antidistillation should be judged against adaptive students rather than passive ones. Our code is available at: https://github.com/ysfalh/distillation-game.