Compress-Distill: Compressão de Rastros de Raciocínio para Destilação Eficiente de Conhecimento

Resumo

Modelos de raciocínio produzem longos rastros de cadeia de pensamento que são custosos para destilar e incentivam saídas prolixas dos alunos. Estudamos a compressão post-hoc desses rastros antes da destilação de conhecimento. Dois professores, Qwen3.5-397B-A17B e gpt-oss-120B, geram cerca de 283 mil rastros corretos cada; dois modelos ajustados por instrução então os comprimem para 8,6–21,0% do comprimento original em caracteres. Em uma grade principal de 48 execuções mais sete ablações de truncamento com o professor Qwen, os rastros comprimidos reduzem os tokens de treinamento para 12–30% dos brutos, aceleram o treinamento em 2,0–7,6× e encurtam as saídas de inferência em 3–19×, com reduções menores sob o professor gpt-oss, mais curto. No entanto, os rastros brutos retêm a maior precisão downstream em todas as escalas e para ambos os professores. Uma ablação de truncamento de rastros brutos com comprimento correspondente mostra que a compressão não se beneficia apenas de um orçamento de tokens menor: rastros comprimidos por modelo geralmente superam ou igualam o truncamento ingênuo, especialmente para alunos menores, mantendo saídas de inferência mais curtas. No geral, a compressão de rastros de raciocínio oferece uma troca entre precisão e eficiência, não uma melhoria gratuita: alunos retêm até 96% da precisão dos rastros brutos enquanto ganham até 18× mais eficiência por token, e na escala de 0,8B sob LoRA, rastros comprimidos reduzem a lacuna entre bruto e comprimido, mas não superam o bruto.

English

Reasoning models produce long chain-of-thought traces that are costly to distill and encourage verbose student outputs. We study post-hoc compression of such traces before knowledge distillation. Two teachers, Qwen3.5-397B-A17B and gpt-oss-120B, generate about 283k correct traces each; two instruction-tuned models then compress them to 8.6-21.0% of their original character length. Across a 48-run main grid plus seven Qwen-teacher truncation ablations, compressed traces reduce training tokens to 12-30% of raw, speed up training by 2.0-7.6x, and shorten inference outputs by 3-19x with smaller reductions under the shorter gpt-oss teacher. However, raw traces retain the highest downstream accuracy at every scale and for both teachers. A length-matched raw-trace truncation ablation shows that compression is not merely benefiting from a smaller token budget: model-compressed traces usually beat or match naive truncation, especially for smaller students, while maintaining shorter inference outputs. Overall, reasoning-trace compression offers an accuracy-efficiency trade-off rather than a free improvement: students retain up to 96% of raw-trace accuracy while gaining up to 18x higher per-token efficiency, and at the 0.8B scale under LoRA compressed traces narrow the raw-vs-compressed gap but do not exceed raw.