大規模言語モデルのブラックボックス・オン方針蒸留
Black-Box On-Policy Distillation of Large Language Models
November 13, 2025
著者: Tianzhu Ye, Li Dong, Zewen Chi, Xun Wu, Shaohan Huang, Furu Wei
cs.AI
要旨
ブラックボックス蒸留は、プロプライエタリな教師モデルの内部ロジットやパラメータにアクセスせず、そのテキスト出力のみから学習することで、生徒大規模言語モデル(LLM)を生成する手法である。本研究では、オン方策かつブラックボックスな蒸留を可能にする生成的敵対的蒸留(GAD)を提案する。GADは生徒LLMを生成器として位置づけ、その応答と教師LLMの応答を識別する判別器を訓練することで、ミニマックスゲームを構築する。判別器は生徒と共進化するオン方策報酬モデルとして機能し、安定した適応的フィードバックを提供する。実験結果から、GADが一般的に用いられる系列レベル知識蒸留を一貫して上回ることが示された。特に、GADで訓練されたQwen2.5-14B-Instruct(生徒モデル)は、LMSYS-Chat自動評価において教師モデルのGPT-5-Chatに匹敵する性能を達成した。本結果は、GADがブラックボックスLLM蒸留の有望かつ効果的なパラダイムであることを立証する。
English
Black-box distillation creates student large language models (LLMs) by learning from a proprietary teacher model's text outputs alone, without access to its internal logits or parameters. In this work, we introduce Generative Adversarial Distillation (GAD), which enables on-policy and black-box distillation. GAD frames the student LLM as a generator and trains a discriminator to distinguish its responses from the teacher LLM's, creating a minimax game. The discriminator acts as an on-policy reward model that co-evolves with the student, providing stable, adaptive feedback. Experimental results show that GAD consistently surpasses the commonly used sequence-level knowledge distillation. In particular, Qwen2.5-14B-Instruct (student) trained with GAD becomes comparable to its teacher, GPT-5-Chat, on the LMSYS-Chat automatic evaluation. The results establish GAD as a promising and effective paradigm for black-box LLM distillation.