Compress-Distill: Compressie van Redeneersporen voor Efficiënte Kennisdistillatie

Samenvatting

Redeneringsmodellen produceren lange denkketensporen die kostbaar zijn om te distilleren en die tot breedsprakige studentuitvoer leiden. We bestuderen post-hoc-compressie van dergelijke sporen vóór kennisdistillatie. Twee leraren, Qwen3.5-397B-A17B en gpt-oss-120B, genereren elk ongeveer 283k correcte sporen; twee instructieafgestemde modellen comprimeren ze vervolgens tot 8,6–21,0% van hun oorspronkelijke tekenlengte. In een hoofdgrid van 48 runs plus zeven truncatie-ablaties met Qwen-leraar, verminderen gecomprimeerde sporen de trainingstokens tot 12–30% van de ruwe, versnellen de training met 2,0–7,6×, en verkorten de inferentie-uitvoer met 3–19×, met kleinere reducties onder de kortere gpt-oss-leraar. Echter, ruwe sporen behouden de hoogste stroomafwaartse nauwkeurigheid op elke schaal en voor beide leraren. Een lengte-gematchte truncatie-ablatie van ruwe sporen toont aan dat compressie niet alleen profiteert van een kleiner tokenbudget: modelgecomprimeerde sporen verslaan of evenaren meestal naïeve truncatie, vooral voor kleinere studenten, terwijl ze kortere inferentie-uitvoer behouden. Over het algemeen biedt compressie van redeneringssporen een afweging tussen nauwkeurigheid en efficiëntie in plaats van een gratis verbetering: studenten behouden tot 96% van de nauwkeurigheid van ruwe sporen terwijl ze tot 18× hogere per-token efficiëntie behalen, en op de 0,8B-schaal onder LoRA verkleinen gecomprimeerde sporen de kloof tussen ruw en gecomprimeerd, maar overtreffen ze ruw niet.

English

Reasoning models produce long chain-of-thought traces that are costly to distill and encourage verbose student outputs. We study post-hoc compression of such traces before knowledge distillation. Two teachers, Qwen3.5-397B-A17B and gpt-oss-120B, generate about 283k correct traces each; two instruction-tuned models then compress them to 8.6-21.0% of their original character length. Across a 48-run main grid plus seven Qwen-teacher truncation ablations, compressed traces reduce training tokens to 12-30% of raw, speed up training by 2.0-7.6x, and shorten inference outputs by 3-19x with smaller reductions under the shorter gpt-oss teacher. However, raw traces retain the highest downstream accuracy at every scale and for both teachers. A length-matched raw-trace truncation ablation shows that compression is not merely benefiting from a smaller token budget: model-compressed traces usually beat or match naive truncation, especially for smaller students, while maintaining shorter inference outputs. Overall, reasoning-trace compression offers an accuracy-efficiency trade-off rather than a free improvement: students retain up to 96% of raw-trace accuracy while gaining up to 18x higher per-token efficiency, and at the 0.8B scale under LoRA compressed traces narrow the raw-vs-compressed gap but do not exceed raw.