Compress-Distill: Compresión de Rastros de Razonamiento para una Destilación de Conocimiento Eficiente

Resumen

Los modelos de razonamiento generan largas trazas de cadena de pensamiento que resultan costosas de destilar y fomentan salidas verbosas por parte de los estudiantes. Estudiamos la compresión post-hoc de dichas trazas antes de la destilación de conocimiento. Dos profesores, Qwen3.5-397B-A17B y gpt-oss-120B, generan aproximadamente 283 mil trazas correctas cada uno; dos modelos ajustados por instrucciones las comprimen al 8,6–21,0 % de su longitud de caracteres original. En una cuadrícula principal de 48 ejecuciones más siete ablaciones de truncamiento con el profesor Qwen, las trazas comprimidas reducen los tokens de entrenamiento al 12–30 % de los crudos, aceleran el entrenamiento entre 2,0 y 7,6 veces y acortan las salidas de inferencia entre 3 y 19 veces, con reducciones menores bajo el profesor gpt-oss, de menor longitud. Sin embargo, las trazas crudas mantienen la mayor precisión en tareas posteriores en todas las escalas y para ambos profesores. Una ablación de truncamiento de trazas crudas igualadas en longitud muestra que la compresión no se beneficia simplemente de un presupuesto de tokens más reducido: las trazas comprimidas por modelo generalmente superan o igualan al truncamiento ingenuo, especialmente para estudiantes más pequeños, manteniendo al mismo tiempo salidas de inferencia más cortas. En conjunto, la compresión de trazas de razonamiento ofrece una compensación entre precisión y eficiencia, más que una mejora gratuita: los estudiantes retienen hasta el 96 % de la precisión de las trazas crudas mientras obtienen hasta 18 veces más eficiencia por token, y en la escala de 0,8B con LoRA, las trazas comprimidas reducen la brecha entre crudo y comprimido, pero no superan al crudo.

English

Reasoning models produce long chain-of-thought traces that are costly to distill and encourage verbose student outputs. We study post-hoc compression of such traces before knowledge distillation. Two teachers, Qwen3.5-397B-A17B and gpt-oss-120B, generate about 283k correct traces each; two instruction-tuned models then compress them to 8.6-21.0% of their original character length. Across a 48-run main grid plus seven Qwen-teacher truncation ablations, compressed traces reduce training tokens to 12-30% of raw, speed up training by 2.0-7.6x, and shorten inference outputs by 3-19x with smaller reductions under the shorter gpt-oss teacher. However, raw traces retain the highest downstream accuracy at every scale and for both teachers. A length-matched raw-trace truncation ablation shows that compression is not merely benefiting from a smaller token budget: model-compressed traces usually beat or match naive truncation, especially for smaller students, while maintaining shorter inference outputs. Overall, reasoning-trace compression offers an accuracy-efficiency trade-off rather than a free improvement: students retain up to 96% of raw-trace accuracy while gaining up to 18x higher per-token efficiency, and at the 0.8B scale under LoRA compressed traces narrow the raw-vs-compressed gap but do not exceed raw.