증류 게임: 적응형 공격과 효율적 방어
The Distillation Game: Adaptive Attacks & Efficient Defenses
May 29, 2026
저자: Youssef Allouah, Mahdi Haghifam, Sanmi Koyejo, Reza Shokri
cs.AI
초록
증류(distillation) 공격은 모델 제공자에게 배포 상의 트레이드오프를 만든다: 모델을 더 유용하게 만드는 동일한 출력이 모방을 더 쉽게 만들 수도 있다. 우리는 효용이 제한된 교사(teacher)와 적응적 학생(adaptive student) 간의 미니맥스 게임(minimax game)을 통해 이 트레이드오프를 연구한다. 우리의 프레임워크는 다루기 쉬운 일방적 응답 규칙(one-sided response rules)을 제공한다: 학생이 고가치 예제를 재가중하는 적응적 평가 규칙(adaptive evaluation rule)과, 증류에 가장 유용한 출력을 억제하는 교사 측 방어 템플릿(teacher-side defense template)이다. 예제 가치에 대한 저비용 프록시(cheap proxy)로부터, 생성 중에 교사와 프록시 학생을 결합하는 단순한 순방향 전용 방어(forward-pass-only defense)인 전문가 곱(Product-of-Experts, PoE)을 도출한다. 실증적으로, 적응적 평가는 큰 수동-적응 간극(passive-adaptive gap)을 드러낸다: 최첨단 방어에서 적응적 학생은 GSM8K와 MATH에서 수동 평가가 시사하는 것보다 훨씬 더 많은 능력을 복원한다. 이 더 강력한 평가 하에서, 고비용 방어와 PoE 사이의 명백한 강건성 격차는 상당히 좁혀지며, PoE는 훨씬 더 저렴하고 더 높은 품질의 추론 흔적(reasoning traces)을 보존한다. 전반적으로, 우리의 결과는 강력한 증류를 막는 것이 여전히 어렵고, 반증류(antidistillation)의 진전은 수동 학생이 아닌 적응적 학생을 기준으로 판단되어야 함을 시사한다. 우리의 코드는 다음에서 확인할 수 있다: https://github.com/ysfalh/distillation-game.
English
Distillation attacks create a deployment trade-off for model providers: the same outputs that make a model more useful can also make it easier to imitate. We study this trade-off through a minimax game between a utility-constrained teacher and an adaptive student. Our framework yields tractable one-sided response rules: an adaptive evaluation rule in which the student reweights high-value examples, and a teacher-side defense template that suppresses outputs most useful for distillation. From a cheap proxy for example value, we derive Product-of-Experts (PoE), a simple forward-pass-only defense that combines the teacher with a proxy student during generation. Empirically, adaptive evaluation reveals a large passive--adaptive gap: on state-of-the-art defenses, adaptive students recover substantially more capability than passive evaluation suggests on GSM8K and MATH. Under this stronger evaluation, the apparent robustness gap between expensive defenses and PoE narrows considerably, while PoE remains substantially cheaper and preserves higher-quality reasoning traces. Overall, our results suggest that strong distillation remains difficult to stop, and that progress on antidistillation should be judged against adaptive students rather than passive ones. Our code is available at: https://github.com/ysfalh/distillation-game.