Compress-Distill: сжатие трасс рассуждений для эффективной дистилляции знаний

Аннотация

Модели рассуждений генерируют длинные цепочки рассуждений (chain-of-thought), которые дороги в дистилляции и способствуют многословным выходным данным студентов. Мы исследуем пост-хок компрессию таких следов перед дистилляцией знаний. Два учителя, Qwen3.5-397B-A17B и gpt-oss-120B, генерируют примерно по 283 тыс. корректных следов; две модели, дообученные на инструкциях, сжимают их до 8,6–21,0% от исходной длины в символах. В рамках основной сетки из 48 запусков и семи абляций по усечению учителя Qwen сжатые следы сокращают количество токенов для обучения до 12–30% от исходного, ускоряют обучение в 2,0–7,6 раза и уменьшают длину выходных данных при инференсе в 3–19 раз, при этом reductions менее выражены для более короткого учителя gpt-oss. Однако необработанные следы сохраняют наивысшую точность на downstream-задачах при любом масштабе и для обоих учителей. Абляция с усечением необработанных следов, сопоставимых по длине, показывает, что сжатие не сводится лишь к меньшему токенному бюджету: модели-компрессоры обычно превосходят или сравнимы с наивным усечением, особенно для меньших студентов, при этом сохраняя более короткие выходные данные при инференсе. В целом, сжатие следов рассуждений представляет собой компромисс между точностью и эффективностью, а не бесплатное улучшение: студенты сохраняют до 96% точности необработанных следов, одновременно достигая до 18-кратного повышения эффективности на токен; при масштабе 0,8B с LoRA сжатые следы сокращают разрыв между необработанными и сжатыми, но не превосходят необработанные.

English

Reasoning models produce long chain-of-thought traces that are costly to distill and encourage verbose student outputs. We study post-hoc compression of such traces before knowledge distillation. Two teachers, Qwen3.5-397B-A17B and gpt-oss-120B, generate about 283k correct traces each; two instruction-tuned models then compress them to 8.6-21.0% of their original character length. Across a 48-run main grid plus seven Qwen-teacher truncation ablations, compressed traces reduce training tokens to 12-30% of raw, speed up training by 2.0-7.6x, and shorten inference outputs by 3-19x with smaller reductions under the shorter gpt-oss teacher. However, raw traces retain the highest downstream accuracy at every scale and for both teachers. A length-matched raw-trace truncation ablation shows that compression is not merely benefiting from a smaller token budget: model-compressed traces usually beat or match naive truncation, especially for smaller students, while maintaining shorter inference outputs. Overall, reasoning-trace compression offers an accuracy-efficiency trade-off rather than a free improvement: students retain up to 96% of raw-trace accuracy while gaining up to 18x higher per-token efficiency, and at the 0.8B scale under LoRA compressed traces narrow the raw-vs-compressed gap but do not exceed raw.