Auto-Distilação em Política para Compressão do Raciocínio
On-Policy Self-Distillation for Reasoning Compression
March 5, 2026
Autores: Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun
cs.AI
Resumo
Os modelos de raciocínio pensam em voz alta, mas grande parte do que dizem é ruído. Apresentamos o OPSDC (On-Policy Self-Distillation for Reasoning Compression), um método que ensina os modelos a raciocinar de forma mais concisa, destilando seu próprio comportamento conciso de volta neles mesmos. Toda a abordagem resume-se a uma ideia: condicionar o mesmo modelo a uma instrução "seja conciso" para obter *logits* do professor e minimizar a divergência reversa de Kullback-Leibler (*reverse KL*) por token nos próprios *rollouts* do aluno. Sem respostas fundamentadas (*ground-truth*), sem orçamentos de tokens, sem estimadores de dificuldade. Apenas auto-destilação. No entanto, esta simplicidade esconde uma sofisticação surpreendente: o OPSDC comprime automaticamente problemas fáceis de forma agressiva, preservando a deliberação necessária para os difíceis. No Qwen3-8B e Qwen3-14B, alcançamos uma redução de 57-59% nos tokens no MATH-500, enquanto melhoramos a precisão em 9-16 pontos absolutos. No AIME 2024, o modelo de 14B ganha 10 pontos com 41% de compressão. O segredo? Grande parte do que os modelos de raciocínio produzem não é apenas redundante - é ativamente prejudicial, agravando erros a cada token desnecessário.
English
Reasoning models think out loud, but much of what they say is noise. We introduce OPSDC (On-Policy Self-Distillation for Reasoning Compression), a method that teaches models to reason more concisely by
distilling their own concise behavior back into themselves. The entire approach reduces to one idea: condition the same model on a "be concise" instruction to obtain teacher logits, and minimize per-token
reverse KL on the student's own rollouts. No ground-truth answers, no token budgets, no difficulty estimators. Just self-distillation. Yet this simplicity belies surprising sophistication: OPSDC automatically
compresses easy problems aggressively while preserving the deliberation needed for hard ones. On Qwen3-8B and Qwen3-14B, we achieve 57-59% token reduction on MATH-500 while improving accuracy by 9-16 points
absolute. On AIME 2024, the 14B model gains 10 points with 41% compression. The secret? Much of what reasoning models produce is not just redundant-it is actively harmful, compounding errors with every
unnecessary token.