Distillazione On-Policy per la Compressione del Ragionamento

Abstract

I modelli di ragionamento pensano ad alta voce, ma gran parte di ciò che dicono è rumore. Presentiamo OPSDC (On-Policy Self-Distillation for Reasoning Compression), un metodo che insegna ai modelli a ragionare in modo più conciso distillando il loro stesso comportamento conciso nuovamente in sé stessi. L'intero approccio si riduce a un'idea semplice: condizionare lo stesso modello con un'istruzione "sii conciso" per ottenere i logit del teacher, e minimizzare la KL inversa per token sui rollout dello studente. Niente risposte ground-truth, niente budget di token, niente stimatori di difficoltà. Solo auto-distillazione. Eppure, questa semplicità nasconde una sofisticazione sorprendente: OPSDC comprime automaticamente i problemi facili in modo aggressivo, preservando al contempo la deliberazione necessaria per quelli difficili. Su Qwen3-8B e Qwen3-14B, otteniamo una riduzione del 57-59% dei token su MATH-500 migliorando l'accuratezza di 9-16 punti assoluti. Su AIME 2024, il modello da 14B guadagna 10 punti con una compressione del 41%. Il segreto? Gran parte di ciò che i modelli di ragionamento producono non è solo ridondante: è attivamente dannoso, aggravando gli errori con ogni token non necessario.

English

Reasoning models think out loud, but much of what they say is noise. We introduce OPSDC (On-Policy Self-Distillation for Reasoning Compression), a method that teaches models to reason more concisely by distilling their own concise behavior back into themselves. The entire approach reduces to one idea: condition the same model on a "be concise" instruction to obtain teacher logits, and minimize per-token reverse KL on the student's own rollouts. No ground-truth answers, no token budgets, no difficulty estimators. Just self-distillation. Yet this simplicity belies surprising sophistication: OPSDC automatically compresses easy problems aggressively while preserving the deliberation needed for hard ones. On Qwen3-8B and Qwen3-14B, we achieve 57-59% token reduction on MATH-500 while improving accuracy by 9-16 points absolute. On AIME 2024, the 14B model gains 10 points with 41% compression. The secret? Much of what reasoning models produce is not just redundant-it is actively harmful, compounding errors with every unnecessary token.