Само-дистилляция в рамках политики для сжатия рассуждений

Аннотация

Модели рассуждений рассуждают вслух, но большая часть их высказываний — это шум. Мы представляем метод OPSDC (On-Policy Self-Distillation for Reasoning Compression), который учит модели рассуждать более лаконично, дистиллируя их собственное сжатое поведение обратно в них самих. Весь подход сводится к одной идее: получить логиты учителя, кондиционируя ту же модель на инструкции «будь лаконичным», и минимизировать обратную KL-дивергенцию на токен на собственных прогонах ученика. Никаких эталонных ответов, лимитов токенов или оценок сложности. Только самодистилляция. Однако эта простота скрывает удивительную изощренность: OPSDC автоматически агрессивно сжимает простые задачи, сохраняя при этом обдумывание, необходимое для сложных. На моделях Qwen3-8B и Qwen3-14B мы достигаем сокращения токенов на 57–59% на MATH-500 при одновременном повышении точности на 9–16 абсолютных пунктов. На AIME 2024 модель на 14B получает прирост в 10 пунктов при сжатии на 41%. В чем секрет? Большая часть того, что производят модели рассуждений, не просто избыточна — она активно вредна, усугубляя ошибки с каждым лишним токеном.

English

Reasoning models think out loud, but much of what they say is noise. We introduce OPSDC (On-Policy Self-Distillation for Reasoning Compression), a method that teaches models to reason more concisely by distilling their own concise behavior back into themselves. The entire approach reduces to one idea: condition the same model on a "be concise" instruction to obtain teacher logits, and minimize per-token reverse KL on the student's own rollouts. No ground-truth answers, no token budgets, no difficulty estimators. Just self-distillation. Yet this simplicity belies surprising sophistication: OPSDC automatically compresses easy problems aggressively while preserving the deliberation needed for hard ones. On Qwen3-8B and Qwen3-14B, we achieve 57-59% token reduction on MATH-500 while improving accuracy by 9-16 points absolute. On AIME 2024, the 14B model gains 10 points with 41% compression. The secret? Much of what reasoning models produce is not just redundant-it is actively harmful, compounding errors with every unnecessary token.