Auto-Destilación en Política para Compresión del Razonamiento

Resumen

Los modelos de razonamiento piensan en voz alta, pero gran parte de lo que dicen es ruido. Presentamos OPSDC (Destilación Autodidacta en Política Propia para Compresión de Razonamiento), un método que enseña a los modelos a razonar de forma más concisa mediante la destilación de su propio comportamiento conciso de vuelta en sí mismos. Todo el enfoque se reduce a una idea: condicionar el mismo modelo con una instrucción de "ser conciso" para obtener los logits del profesor, y minimizar la divergencia KL inversa por token en las propias ejecuciones del estudiante. Sin respuestas de referencia, sin presupuestos de tokens, sin estimadores de dificultad. Solo auto-destilación. Sin embargo, esta simplicidad oculta una sofisticación sorprendente: OPSDC comprime automáticamente los problemas fáciles de forma agresiva mientras preserva la deliberación necesaria para los difíciles. En Qwen3-8B y Qwen3-14B, logramos una reducción del 57-59% en tokens en MATH-500 mientras mejoramos la precisión en 9-16 puntos absolutos. En AIME 2024, el modelo de 14B gana 10 puntos con una compresión del 41%. ¿El secreto? Gran parte de lo que producen los modelos de razonamiento no es solo redundante: es activamente dañino, acumulando errores con cada token innecesario.

English

Reasoning models think out loud, but much of what they say is noise. We introduce OPSDC (On-Policy Self-Distillation for Reasoning Compression), a method that teaches models to reason more concisely by distilling their own concise behavior back into themselves. The entire approach reduces to one idea: condition the same model on a "be concise" instruction to obtain teacher logits, and minimize per-token reverse KL on the student's own rollouts. No ground-truth answers, no token budgets, no difficulty estimators. Just self-distillation. Yet this simplicity belies surprising sophistication: OPSDC automatically compresses easy problems aggressively while preserving the deliberation needed for hard ones. On Qwen3-8B and Qwen3-14B, we achieve 57-59% token reduction on MATH-500 while improving accuracy by 9-16 points absolute. On AIME 2024, the 14B model gains 10 points with 41% compression. The secret? Much of what reasoning models produce is not just redundant-it is actively harmful, compounding errors with every unnecessary token.