Het Destillatiespel: Adaptieve aanvallen en efficiënte verdedigingen

Samenvatting

Destillatie-aanvallen creëren een implementatie-afweging voor modelaanbieders: dezelfde outputs die een model nuttiger maken, kunnen het ook gemakkelijker maken om te imiteren. We bestuderen deze afweging via een minimax-spel tussen een nutsbeperkte leraar en een adaptieve student. Ons raamwerk levert eenvoudig toepasbare eenzijdige responsregels op: een adaptieve evaluatieregel waarbij de student hoogwaardige voorbeelden herweegt, en een sjabloon voor verdediging aan de lerarenzijde dat outputs onderdrukt die het meest bruikbaar zijn voor destillatie. Via een goedkope proxy voor voorbeeldwaarde leiden we Product-of-Experts (PoE) af, een eenvoudige forward-pass-only-verdediging die tijdens generatie de leraar combineert met een proxystudent. Empirisch gezien onthult adaptieve evaluatie een grote passief–adaptieve kloof: bij state-of-the-art-verdedigingen herwinnen adaptieve studenten aanzienlijk meer capaciteit dan passieve evaluatie suggereert op GSM8K en MATH. Onder deze sterkere evaluatie wordt de schijnbare robuustheidskloof tussen dure verdedigingen en PoE aanzienlijk kleiner, terwijl PoE aanzienlijk goedkoper blijft en redeneertrajecten van hogere kwaliteit behoudt. Over het algemeen suggereren onze resultaten dat sterke destillatie moeilijk te stoppen blijft en dat vooruitgang op het gebied van anti-destillatie moet worden beoordeeld aan de hand van adaptieve studenten in plaats van passieve. Onze code is beschikbaar op: https://github.com/ysfalh/distillation-game.

English

Distillation attacks create a deployment trade-off for model providers: the same outputs that make a model more useful can also make it easier to imitate. We study this trade-off through a minimax game between a utility-constrained teacher and an adaptive student. Our framework yields tractable one-sided response rules: an adaptive evaluation rule in which the student reweights high-value examples, and a teacher-side defense template that suppresses outputs most useful for distillation. From a cheap proxy for example value, we derive Product-of-Experts (PoE), a simple forward-pass-only defense that combines the teacher with a proxy student during generation. Empirically, adaptive evaluation reveals a large passive--adaptive gap: on state-of-the-art defenses, adaptive students recover substantially more capability than passive evaluation suggests on GSM8K and MATH. Under this stronger evaluation, the apparent robustness gap between expensive defenses and PoE narrows considerably, while PoE remains substantially cheaper and preserves higher-quality reasoning traces. Overall, our results suggest that strong distillation remains difficult to stop, and that progress on antidistillation should be judged against adaptive students rather than passive ones. Our code is available at: https://github.com/ysfalh/distillation-game.