ChatPaper.aiChatPaper

Distillation d'Informations Privilégiées pour les Modèles de Langue

Privileged Information Distillation for Language Models

February 4, 2026
papers.authors: Emiliano Penaloza, Dheeraj Vattikonda, Nicolas Gontier, Alexandre Lacoste, Laurent Charlin, Massimo Caccia
cs.AI

papers.abstract

L'information privilégiée (PI) disponible pendant l'entraînement peut permettre aux modèles de langage de réussir des tâches qu'ils échoueraient autrement, ce qui en fait un outil puissant pour l'apprentissage par renforcement dans des contextes difficiles et à long terme. Cependant, le transfert des capacités apprises avec la PI vers des politiques qui doivent agir sans elle au moment de l'inférence reste un défi fondamental. Nous étudions ce problème dans le contexte de la distillation de modèles de pointe pour des environnements agentiques multi-tours, où les systèmes propriétaires cachent généralement leur raisonnement interne et n'exposent que des trajectoires d'actions. Cela rompt les pipelines de distillation standard, puisque le comportement réussi est observable mais le processus de raisonnement ne l'est pas. Pour cela, nous introduisons π-Distill, un objectif conjoint enseignant-élève qui entraîne un enseignant conditionné par la PI et un élève non conditionné simultanément en utilisant le même modèle. De plus, nous introduisons également l'Auto-Distillation sur Politique (OPSD), une approche alternative qui s'entraîne en utilisant l'Apprentissage par Renforcement (RL) avec une pénalité de KL inverse entre l'élève et l'enseignant conditionné par la PI. Nous montrons que ces deux algorithmes distillent efficacement des agents de pointe en utilisant une PI basée uniquement sur les actions. Plus précisément, nous constatons que π-Distill, et dans certains cas OPSD, surpassent les pratiques standards de l'industrie (affinage supervisé suivi de RL) qui supposent un accès à une supervision complète de Chaîne de Pensée (Chain-of-Thought), et ceci sur plusieurs benchmarks agentiques, modèles et formes de PI. Nous complétons nos résultats par une analyse approfondie qui caractérise les facteurs permettant un apprentissage efficace avec la PI, en se concentrant principalement sur π-Distill et en caractérisant les cas où OPSD est compétitif.
English
Training-time privileged information (PI) can enable language models to succeed on tasks they would otherwise fail, making it a powerful tool for reinforcement learning in hard, long-horizon settings. However, transferring capabilities learned with PI to policies that must act without it at inference time remains a fundamental challenge. We study this problem in the context of distilling frontier models for multi-turn agentic environments, where closed-source systems typically hide their internal reasoning and expose only action trajectories. This breaks standard distillation pipelines, since successful behavior is observable but the reasoning process is not. For this, we introduce π-Distill, a joint teacher-student objective that trains a PI-conditioned teacher and an unconditioned student simultaneously using the same model. Additionally, we also introduce On-Policy Self-Distillation (OPSD), an alternative approach that trains using Reinforcement Learning (RL) with a reverse KL-penalty between the student and the PI-conditioned teacher. We show that both of these algorithms effectively distill frontier agents using action-only PI. Specifically we find that π-Distill and in some cases OPSD, outperform industry standard practices (Supervised finetuning followed by RL) that assume access to full Chain-of-Thought supervision across multiple agentic benchmarks, models, and forms of PI. We complement our results with extensive analysis that characterizes the factors enabling effective learning with PI, focusing primarily on π-Distill and characterizing when OPSD is competitive.
PDF152February 7, 2026