Auto-distillation en-ligne pour la compression du raisonnement

Résumé

Les modèles de raisonnement raisonnent à haute voix, mais une grande partie de leurs productions est du bruit. Nous présentons OPSDC (Auto-distillation sur politique pour la compression du raisonnement), une méthode qui apprend aux modèles à raisonner de manière plus concise en distillant leur propre comportement concis en eux-mêmes. L'approche entière se résume à une idée : conditionner le même modèle avec une instruction "sois concis" pour obtenir des logits d'enseignant, et minimiser la divergence KL inverse par token sur les déploiements autonomes de l'élève. Pas de réponses de référence, pas de budgets de tokens, pas d'estimateurs de difficulté. Juste de l'auto-distillation. Pourtant, cette simplicité cache une sophistication surprenante : OPSDC compresse automatiquement les problèmes faciles de manière agressive tout en préservant la délibération nécessaire pour les problèmes difficiles. Sur Qwen3-8B et Qwen3-14B, nous obtenons une réduction de 57 à 59 % des tokens sur MATH-500 tout en améliorant la précision de 9 à 16 points absolus. Sur AIME 2024, le modèle 14B gagne 10 points avec une compression de 41 %. Le secret ? Une grande partie de ce que produisent les modèles de raisonnement n'est pas seulement redondante – elle est activement nuisible, amplifiant les erreurs à chaque token superflu.

English

Reasoning models think out loud, but much of what they say is noise. We introduce OPSDC (On-Policy Self-Distillation for Reasoning Compression), a method that teaches models to reason more concisely by distilling their own concise behavior back into themselves. The entire approach reduces to one idea: condition the same model on a "be concise" instruction to obtain teacher logits, and minimize per-token reverse KL on the student's own rollouts. No ground-truth answers, no token budgets, no difficulty estimators. Just self-distillation. Yet this simplicity belies surprising sophistication: OPSDC automatically compresses easy problems aggressively while preserving the deliberation needed for hard ones. On Qwen3-8B and Qwen3-14B, we achieve 57-59% token reduction on MATH-500 while improving accuracy by 9-16 points absolute. On AIME 2024, the 14B model gains 10 points with 41% compression. The secret? Much of what reasoning models produce is not just redundant-it is actively harmful, compounding errors with every unnecessary token.