Compress-Distill: Komprimierung von Reasoning-Traces für effiziente Wissensdestillation

Zusammenfassung

Reasoning-Modelle erzeugen lange Chain-of-Thought-Spuren, deren Destillation kostspielig ist und die zu ausführlichen Schülerausgaben führen. Wir untersuchen die Post-hoc-Kompression solcher Spuren vor der Wissensdestillation. Zwei Lehrer, Qwen3.5-397B-A17B und gpt-oss-120B, generieren jeweils etwa 283.000 korrekte Spuren; zwei anweisungsoptimierte Modelle komprimieren diese dann auf 8,6–21,0 % ihrer ursprünglichen Zeichenlänge. Über ein Hauptgitter mit 48 Läufen plus sieben Qwen-Lehrer-Trunkierungs-Ablationen reduzieren komprimierte Spuren die Trainings-Token auf 12–30 % der rohen, beschleunigen das Training um das 2,0- bis 7,6-fache und verkürzen die Inferenzausgaben um das 3- bis 19-fache, wobei die Reduktionen beim kürzeren gpt-oss-Lehrer geringer ausfallen. Allerdings behalten rohe Spuren auf jeder Skala und für beide Lehrer die höchste nachgelagerte Genauigkeit. Eine längenangepasste Trunkierungs-Ablation roher Spuren zeigt, dass die Kompression nicht lediglich von einem geringeren Token-Budget profitiert: Modell-komprimierte Spuren übertreffen oder erreichen meist die naive Trunkierung, insbesondere bei kleineren Schülern, während sie kürzere Inferenzausgaben beibehalten. Insgesamt bietet die Kompression von Reasoning-Spuren eine Abwägung zwischen Genauigkeit und Effizienz und keine kostenlose Verbesserung: Schüler behalten bis zu 96 % der Genauigkeit roher Spuren, während sie eine bis zu 18-fach höhere Token-Effizienz erzielen; auf der 0,8B-Skala unter LoRA verringern komprimierte Spuren die Kluft zwischen rohen und komprimierten Spuren, übertreffen die rohen jedoch nicht.

English

Reasoning models produce long chain-of-thought traces that are costly to distill and encourage verbose student outputs. We study post-hoc compression of such traces before knowledge distillation. Two teachers, Qwen3.5-397B-A17B and gpt-oss-120B, generate about 283k correct traces each; two instruction-tuned models then compress them to 8.6-21.0% of their original character length. Across a 48-run main grid plus seven Qwen-teacher truncation ablations, compressed traces reduce training tokens to 12-30% of raw, speed up training by 2.0-7.6x, and shorten inference outputs by 3-19x with smaller reductions under the shorter gpt-oss teacher. However, raw traces retain the highest downstream accuracy at every scale and for both teachers. A length-matched raw-trace truncation ablation shows that compression is not merely benefiting from a smaller token budget: model-compressed traces usually beat or match naive truncation, especially for smaller students, while maintaining shorter inference outputs. Overall, reasoning-trace compression offers an accuracy-efficiency trade-off rather than a free improvement: students retain up to 96% of raw-trace accuracy while gaining up to 18x higher per-token efficiency, and at the 0.8B scale under LoRA compressed traces narrow the raw-vs-compressed gap but do not exceed raw.