ChatPaper.aiChatPaper

언어 모델을 위한 특권 정보 증류

Privileged Information Distillation for Language Models

February 4, 2026
저자: Emiliano Penaloza, Dheeraj Vattikonda, Nicolas Gontier, Alexandre Lacoste, Laurent Charlin, Massimo Caccia
cs.AI

초록

훈련 시간 특권 정보(PI)는 언어 모델이 원래 실패할 작업을 성공적으로 수행할 수 있게 하여, 어렵고 장기적인 설정에서 강화 학습을 위한 강력한 도구가 됩니다. 그러나 추론 시간에 PI 없이 작동해야 하는 정책으로 PI를 통해 학습된 능력을 전이하는 것은 근본적인 과제로 남아 있습니다. 우리는 멀티턴 에이전트 환경에서 최첨단 모델을 증류하는 맥락에서 이 문제를 연구하며, 이 환경에서는 폐쇄형 시스템이 일반적으로 내부 추론 과정을 숨기고 행동 궤적만 노출합니다. 이는 성공적인 행동은 관찰 가능하지만 추론 과정은 관찰할 수 없기 때문에 표준 증류 파이프라인을 무너뜨립니다. 이를 위해 우리는 동일한 모델을 사용하여 PI 조건부 교사와 비조건부 학생을 동시에 훈련시키는 공동 교사-학생 목표 함수인 π-Distill을 소개합니다. 추가적으로 우리는 학생과 PI 조건부 교사 간의 역 KL 패널티를 사용한 강화 학습(RL)으로 훈련하는 대안적 접근법인 정책 상 자기 증류(OPSD)도 소개합니다. 우리는 이 두 알고리즘이 행동 전용 PI를 사용하여 최첨단 에이전트를 효과적으로 증류함을 보여줍니다. 구체적으로, 우리는 π-Distill과 경우에 따라 OPSD가 완전한 사고 연쇄 감독에 접근할 수 있다고 가정하는 업계 표준 관행(지도 미세 조정 후 RL 수행)을 여러 에이전트 벤치마크, 모델 및 PI 형태에서 능가함을 발견했습니다. 우리는 결과를 주로 π-Distill에 초점을 맞추고 OPSD가 경쟁력을 갖는 조건을 규명함으로써 PI를 통한 효과적 학습을 가능하게 하는 요인을 규명하는 광범위한 분석으로 보완합니다.
English
Training-time privileged information (PI) can enable language models to succeed on tasks they would otherwise fail, making it a powerful tool for reinforcement learning in hard, long-horizon settings. However, transferring capabilities learned with PI to policies that must act without it at inference time remains a fundamental challenge. We study this problem in the context of distilling frontier models for multi-turn agentic environments, where closed-source systems typically hide their internal reasoning and expose only action trajectories. This breaks standard distillation pipelines, since successful behavior is observable but the reasoning process is not. For this, we introduce π-Distill, a joint teacher-student objective that trains a PI-conditioned teacher and an unconditioned student simultaneously using the same model. Additionally, we also introduce On-Policy Self-Distillation (OPSD), an alternative approach that trains using Reinforcement Learning (RL) with a reverse KL-penalty between the student and the PI-conditioned teacher. We show that both of these algorithms effectively distill frontier agents using action-only PI. Specifically we find that π-Distill and in some cases OPSD, outperform industry standard practices (Supervised finetuning followed by RL) that assume access to full Chain-of-Thought supervision across multiple agentic benchmarks, models, and forms of PI. We complement our results with extensive analysis that characterizes the factors enabling effective learning with PI, focusing primarily on π-Distill and characterizing when OPSD is competitive.
PDF152February 7, 2026