Compress-Distill: 효율적인 지식 증류를 위한 추론 과정 압축
Compress-Distill: Reasoning Trace Compression for Efficient Knowledge Distillation
June 4, 2026
저자: Maxime Griot, Paul Steven Scotti, Tanishq Mathew Abraham
cs.AI
초록
추론 모델은 증류 비용이 높고 학생 모델의 장황한 출력을 유도하는 긴 사고 사슬 추적을 생성합니다. 우리는 지식 증류 전에 이러한 추적의 사후 압축을 연구합니다. 두 교사 모델(Qwen3.5-397B-A17B 및 gpt-oss-120B)이 각각 약 283k개의 올바른 추적을 생성하고, 두 개의 명령어 튜닝 모델이 이를 원본 문자 길이의 8.6~21.0%로 압축합니다. 48회 실행의 주요 그리드와 7개의 Qwen 교사 절단 제거 실험 전반에 걸쳐, 압축된 추적은 훈련 토큰을 원본 대비 12~30%로 줄이고, 훈련 속도를 2.0~7.6배 가속화하며, 추론 출력을 3~19배 단축시키며, 더 짧은 gpt-oss 교사에서는 감소 폭이 더 작습니다. 그러나 원본 추적은 모든 규모와 두 교사에 대해 가장 높은 하위 작업 정확도를 유지합니다. 길이 일치 원본 추적 절단 제거 실험은 압축이 단순히 더 작은 토큰 예산의 이점을 얻는 것이 아님을 보여줍니다. 모델 압축 추적은 일반적으로 특히 더 작은 학생 모델에서 단순 절단을 능가하거나 일치하며, 더 짧은 추론 출력을 유지합니다. 전반적으로, 추론 추적 압축은 무료 개선이 아닌 정확도-효율 트레이드오프를 제공합니다. 학생 모델은 원본 추적 정확도의 최대 96%를 유지하면서 토큰당 효율성이 최대 18배 향상되며, 0.8B 규모에서 LoRA 하에서는 압축된 추적이 원본 대비 압축 간 격차를 줄이지만 원본을 초과하지는 않습니다.
English
Reasoning models produce long chain-of-thought traces that are costly to distill and encourage verbose student outputs. We study post-hoc compression of such traces before knowledge distillation. Two teachers, Qwen3.5-397B-A17B and gpt-oss-120B, generate about 283k correct traces each; two instruction-tuned models then compress them to 8.6-21.0% of their original character length. Across a 48-run main grid plus seven Qwen-teacher truncation ablations, compressed traces reduce training tokens to 12-30% of raw, speed up training by 2.0-7.6x, and shorten inference outputs by 3-19x with smaller reductions under the shorter gpt-oss teacher. However, raw traces retain the highest downstream accuracy at every scale and for both teachers. A length-matched raw-trace truncation ablation shows that compression is not merely benefiting from a smaller token budget: model-compressed traces usually beat or match naive truncation, especially for smaller students, while maintaining shorter inference outputs. Overall, reasoning-trace compression offers an accuracy-efficiency trade-off rather than a free improvement: students retain up to 96% of raw-trace accuracy while gaining up to 18x higher per-token efficiency, and at the 0.8B scale under LoRA compressed traces narrow the raw-vs-compressed gap but do not exceed raw.