ChatPaper.aiChatPaper

言語モデルのための特権情報蒸留

Privileged Information Distillation for Language Models

February 4, 2026
著者: Emiliano Penaloza, Dheeraj Vattikonda, Nicolas Gontier, Alexandre Lacoste, Laurent Charlin, Massimo Caccia
cs.AI

要旨

学習時特権情報(PI)は、言語モデルが本来失敗するタスクを成功させることを可能にし、困難で長期的な設定における強化学習の強力なツールとなり得る。しかし、PIを用いて獲得した能力を、推論時にPIなしで動作しなければならない方策に転移させることは、依然として根本的な課題である。本研究では、マルチターンのエージェント環境におけるフロンティアモデルの蒸留という文脈でこの問題を検討する。クローズドソースシステムでは通常、内部の推論過程を隠蔽し、行動軌跡のみを公開するため、標準的な蒸留パイプラインは機能しなくなる。成功した行動は観測可能だが、推論過程は観測不能だからである。この問題に対処するため、我々はπ-Distillを提案する。これは、PI条件付き教師モデルと条件なし生徒モデルを同一モデルで同時に学習する共同教師-生徒目的関数である。さらに、代替手法として、生徒モデルとPI条件付き教師モデルとの間の逆KLペナルティを用いた強化学習(RL)で学習を行うOn-Policy Self-Distillation(OPSD)も提案する。我々は、これらのアルゴリズムが行動のみのPIを用いてフロンティアエージェントを効果的に蒸留することを示す。具体的には、π-Distill、および場合によってはOPSDが、完全な連鎖思考(Chain-of-Thought)の監視へのアクセスを仮定した業界標準手法(教師ありファインチューニング後のRL)を、複数のエージェントベンチマーク、モデル、PIの形式において凌駕することを見出した。結果を補完するため、PIを用いた効果的な学習を可能にする要因、主にπ-Distillに焦点を当て、OPSDが競合する条件を明らかにする広範な分析を行う。
English
Training-time privileged information (PI) can enable language models to succeed on tasks they would otherwise fail, making it a powerful tool for reinforcement learning in hard, long-horizon settings. However, transferring capabilities learned with PI to policies that must act without it at inference time remains a fundamental challenge. We study this problem in the context of distilling frontier models for multi-turn agentic environments, where closed-source systems typically hide their internal reasoning and expose only action trajectories. This breaks standard distillation pipelines, since successful behavior is observable but the reasoning process is not. For this, we introduce π-Distill, a joint teacher-student objective that trains a PI-conditioned teacher and an unconditioned student simultaneously using the same model. Additionally, we also introduce On-Policy Self-Distillation (OPSD), an alternative approach that trains using Reinforcement Learning (RL) with a reverse KL-penalty between the student and the PI-conditioned teacher. We show that both of these algorithms effectively distill frontier agents using action-only PI. Specifically we find that π-Distill and in some cases OPSD, outperform industry standard practices (Supervised finetuning followed by RL) that assume access to full Chain-of-Thought supervision across multiple agentic benchmarks, models, and forms of PI. We complement our results with extensive analysis that characterizes the factors enabling effective learning with PI, focusing primarily on π-Distill and characterizing when OPSD is competitive.
PDF152February 7, 2026