Compress-Distill : Compression de traces de raisonnement pour une distillation efficace des connaissances

Résumé

Les modèles de raisonnement produisent de longues traces de chaînes de pensée qui sont coûteuses à distiller et favorisent des sorties verbeuses des étudiants. Nous étudions la compression post-hoc de ces traces avant la distillation de connaissances. Deux enseignants, Qwen3.5-397B-A17B et gpt-oss-120B, génèrent chacun environ 283 000 traces correctes ; deux modèles ajustés par instructions les compressent ensuite à 8,6–21,0 % de leur longueur originale en caractères. Sur une grille principale de 48 exécutions plus sept ablations par troncature avec l'enseignant Qwen, les traces compressées réduisent les jetons d'entraînement à 12–30 % des jetons bruts, accélèrent l'entraînement de 2,0 à 7,6 fois, et raccourcissent les sorties d'inférence de 3 à 19 fois, avec des réductions moindres sous l'enseignant gpt-oss plus court. Cependant, les traces brutes conservent la plus haute précision en aval à toutes les échelles et pour les deux enseignants. Une ablation par troncature des traces brutes appariée en longueur montre que la compression ne bénéficie pas simplement d'un budget de jetons plus faible : les traces compressées par modèle surpassent ou égalent généralement la troncature naïve, en particulier pour les étudiants plus petits, tout en maintenant des sorties d'inférence plus courtes. Dans l'ensemble, la compression des traces de raisonnement offre un compromis précision-efficacité plutôt qu'une amélioration gratuite : les étudiants conservent jusqu'à 96 % de la précision des traces brutes tout en obtenant une efficacité par jeton jusqu'à 18 fois supérieure, et à l'échelle 0,8B avec LoRA, les traces compressées réduisent l'écart entre brutes et compressées mais ne dépassent pas les brutes.

English

Reasoning models produce long chain-of-thought traces that are costly to distill and encourage verbose student outputs. We study post-hoc compression of such traces before knowledge distillation. Two teachers, Qwen3.5-397B-A17B and gpt-oss-120B, generate about 283k correct traces each; two instruction-tuned models then compress them to 8.6-21.0% of their original character length. Across a 48-run main grid plus seven Qwen-teacher truncation ablations, compressed traces reduce training tokens to 12-30% of raw, speed up training by 2.0-7.6x, and shorten inference outputs by 3-19x with smaller reductions under the shorter gpt-oss teacher. However, raw traces retain the highest downstream accuracy at every scale and for both teachers. A length-matched raw-trace truncation ablation shows that compression is not merely benefiting from a smaller token budget: model-compressed traces usually beat or match naive truncation, especially for smaller students, while maintaining shorter inference outputs. Overall, reasoning-trace compression offers an accuracy-efficiency trade-off rather than a free improvement: students retain up to 96% of raw-trace accuracy while gaining up to 18x higher per-token efficiency, and at the 0.8B scale under LoRA compressed traces narrow the raw-vs-compressed gap but do not exceed raw.