On-Policy Zelfdestillatie voor Redeneercompressie

Samenvatting

Redeneermodellen denken hardop, maar veel van wat ze zeggen is ruis. Wij introduceren OPSDC (On-Policy Self-Distillation for Reasoning Compression), een methode die modellen leert beknopter te redeneren door hun eigen beknopte gedrag terug te distilleren in zichzelf. De hele aanpak komt neer op één idee: conditioneer hetzelfde model met een "wees beknopt" instructie om teacher-logits te verkrijgen, en minimaliseer de reverse KL-divergentie per token op de student's eigen rollouts. Geen grond-waarheid-antwoorden, geen tokenbudgetten, geen moeilijkheidsschattingen. Alleen zelfdistillatie. Toch verhult deze eenvoud een verrassende verfijning: OPSDC comprimeert eenvoudige problemen automatisch agressief, terwijl de benodigde beraadslaging voor moeilijke problemen behouden blijft. Op Qwen3-8B en Qwen3-14B bereiken we een tokenreductie van 57-59% op MATH-500 terwijl de nauwkeurigheid met 9-16 procentpunten absoluut verbetert. Op AIME 2024 wint het 14B-model 10 punten met een compressie van 41%. Het geheim? Veel van wat redeneermodellen produceren is niet alleen redundant – het is actief schadelijk, omdat fouten worden versterkt met elke onnodige token.

English

Reasoning models think out loud, but much of what they say is noise. We introduce OPSDC (On-Policy Self-Distillation for Reasoning Compression), a method that teaches models to reason more concisely by distilling their own concise behavior back into themselves. The entire approach reduces to one idea: condition the same model on a "be concise" instruction to obtain teacher logits, and minimize per-token reverse KL on the student's own rollouts. No ground-truth answers, no token budgets, no difficulty estimators. Just self-distillation. Yet this simplicity belies surprising sophistication: OPSDC automatically compresses easy problems aggressively while preserving the deliberation needed for hard ones. On Qwen3-8B and Qwen3-14B, we achieve 57-59% token reduction on MATH-500 while improving accuracy by 9-16 points absolute. On AIME 2024, the 14B model gains 10 points with 41% compression. The secret? Much of what reasoning models produce is not just redundant-it is actively harmful, compounding errors with every unnecessary token.