Distillazione di Informazioni Privilegiate per Modelli Linguistici

Abstract

Le informazioni privilegiate durante l'addestramento (PI) possono permettere ai modelli linguistici di riuscire in compiti che altrimenti fallirebbero, rendendole uno strumento potente per l'apprendimento per rinforzo in contesti difficili e a lungo termine. Tuttavia, trasferire le capacità apprese con le PI a politiche che devono agire senza di esse al momento dell'inferenza rimane una sfida fondamentale. Studiamo questo problema nel contesto della distillazione di modelli all'avanguardia per ambienti agentivi multi-turn, dove i sistemi closed-source tipicamente nascondono il loro ragionamento interno ed espongono solo traiettorie di azione. Ciò interrompe le pipeline standard di distillazione, poiché il comportamento di successo è osservabile ma il processo di ragionamento non lo è. Per questo, introduciamo π-Distill, un obiettivo congiunto insegnante-studente che addestra simultaneamente un insegnante condizionato dalle PI e uno studente non condizionato utilizzando lo stesso modello. Inoltre, introduciamo anche l'Auto-Distillazione su Politica (OPSD), un approccio alternativo che si addestra utilizzando l'Apprendimento per Rinforzo (RL) con una penalità di KL inversa tra lo studente e l'insegnante condizionato dalle PI. Dimostriamo che entrambi questi algoritmi distillano efficacemente agenti all'avanguardia utilizzando PI composte da sole azioni. In particolare, scopriamo che π-Distill e, in alcuni casi, OPSD, superano le pratiche standard del settore (fine-tuning supervisionato seguito da RL) che presuppongono l'accesso a una supervisione completa della Catena di Pensiero (Chain-of-Thought) su molteplici benchmark agentivi, modelli e forme di PI. Integriamo i nostri risultati con un'ampia analisi che caratterizza i fattori che abilitano un apprendimento efficace con le PI, concentrandoci principalmente su π-Distill e caratterizzando quando OPSD è competitiva.

English

Training-time privileged information (PI) can enable language models to succeed on tasks they would otherwise fail, making it a powerful tool for reinforcement learning in hard, long-horizon settings. However, transferring capabilities learned with PI to policies that must act without it at inference time remains a fundamental challenge. We study this problem in the context of distilling frontier models for multi-turn agentic environments, where closed-source systems typically hide their internal reasoning and expose only action trajectories. This breaks standard distillation pipelines, since successful behavior is observable but the reasoning process is not. For this, we introduce π-Distill, a joint teacher-student objective that trains a PI-conditioned teacher and an unconditioned student simultaneously using the same model. Additionally, we also introduce On-Policy Self-Distillation (OPSD), an alternative approach that trains using Reinforcement Learning (RL) with a reverse KL-penalty between the student and the PI-conditioned teacher. We show that both of these algorithms effectively distill frontier agents using action-only PI. Specifically we find that π-Distill and in some cases OPSD, outperform industry standard practices (Supervised finetuning followed by RL) that assume access to full Chain-of-Thought supervision across multiple agentic benchmarks, models, and forms of PI. We complement our results with extensive analysis that characterizes the factors enabling effective learning with PI, focusing primarily on π-Distill and characterizing when OPSD is competitive.

Distillazione di Informazioni Privilegiate per Modelli Linguistici

Privileged Information Distillation for Language Models

Abstract

Support