Auto-distillation en-ligne pour la compression du raisonnement
On-Policy Self-Distillation for Reasoning Compression
March 5, 2026
Auteurs: Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun
cs.AI
Résumé
Les modèles de raisonnement raisonnent à haute voix, mais une grande partie de leurs productions est du bruit. Nous présentons OPSDC (Auto-distillation sur politique pour la compression du raisonnement), une méthode qui apprend aux modèles à raisonner de manière plus concise en distillant leur propre comportement concis en eux-mêmes. L'approche entière se résume à une idée : conditionner le même modèle avec une instruction "sois concis" pour obtenir des logits d'enseignant, et minimiser la divergence KL inverse par token sur les déploiements autonomes de l'élève. Pas de réponses de référence, pas de budgets de tokens, pas d'estimateurs de difficulté. Juste de l'auto-distillation. Pourtant, cette simplicité cache une sophistication surprenante : OPSDC compresse automatiquement les problèmes faciles de manière agressive tout en préservant la délibération nécessaire pour les problèmes difficiles. Sur Qwen3-8B et Qwen3-14B, nous obtenons une réduction de 57 à 59 % des tokens sur MATH-500 tout en améliorant la précision de 9 à 16 points absolus. Sur AIME 2024, le modèle 14B gagne 10 points avec une compression de 41 %. Le secret ? Une grande partie de ce que produisent les modèles de raisonnement n'est pas seulement redondante – elle est activement nuisible, amplifiant les erreurs à chaque token superflu.
English
Reasoning models think out loud, but much of what they say is noise. We introduce OPSDC (On-Policy Self-Distillation for Reasoning Compression), a method that teaches models to reason more concisely by
distilling their own concise behavior back into themselves. The entire approach reduces to one idea: condition the same model on a "be concise" instruction to obtain teacher logits, and minimize per-token
reverse KL on the student's own rollouts. No ground-truth answers, no token budgets, no difficulty estimators. Just self-distillation. Yet this simplicity belies surprising sophistication: OPSDC automatically
compresses easy problems aggressively while preserving the deliberation needed for hard ones. On Qwen3-8B and Qwen3-14B, we achieve 57-59% token reduction on MATH-500 while improving accuracy by 9-16 points
absolute. On AIME 2024, the 14B model gains 10 points with 41% compression. The secret? Much of what reasoning models produce is not just redundant-it is actively harmful, compounding errors with every
unnecessary token.