ChatPaper.aiChatPaper

Compress-Distill: 推論トレース圧縮による効率的な知識蒸留

Compress-Distill: Reasoning Trace Compression for Efficient Knowledge Distillation

June 4, 2026
著者: Maxime Griot, Paul Steven Scotti, Tanishq Mathew Abraham
cs.AI

要旨

推論モデルは長い思考連鎖(chain-of-thought)を生成するため、蒸留のコストが高く、生徒モデルの出力を冗長にする傾向がある。本研究では、知識蒸留前にこうした思考連鎖を事後的に圧縮する手法を検討する。2つの教師モデル(Qwen3.5-397B-A17B および gpt-oss-120B)がそれぞれ約28万3千件の正解思考連鎖を生成し、2つの指示調整済みモデルがこれらを元の文字数の8.6~21.0%に圧縮する。48回のメイングリッド実験と7回のQwen教師切り詰めアブレーションを通じて、圧縮された思考連鎖は訓練トークンを生データの12~30%に削減し、訓練速度を2.0~7.6倍に向上させ、推論出力を3~19倍短縮する。ただし、gpt-oss教師がより短いため、削減幅は小さくなる。しかし、すべてのスケールおよび両教師において、生の思考連鎖が最も高い下流精度を維持する。長さを一致させた生の思考連鎖切り詰めアブレーションにより、圧縮が単にトークン予算の削減によるものではないことが示される。モデルによる圧縮思考連鎖は、特に小規模な生徒モデルにおいて、単純な切り詰めを概ね上回るか同等であり、かつ推論出力はより短い。総じて、推論思考連鎖の圧縮は無償の改善ではなく、精度と効率のトレードオフを提供する。すなわち、生徒モデルは生の思考連鎖の精度の最大96%を維持しつつ、トークンあたりの効率を最大18倍向上させることができ、LoRAを用いた0.8Bスケールでは、圧縮思考連鎖が生データと圧縮データのギャップを縮めるものの、生データを超えることはない。
English
Reasoning models produce long chain-of-thought traces that are costly to distill and encourage verbose student outputs. We study post-hoc compression of such traces before knowledge distillation. Two teachers, Qwen3.5-397B-A17B and gpt-oss-120B, generate about 283k correct traces each; two instruction-tuned models then compress them to 8.6-21.0% of their original character length. Across a 48-run main grid plus seven Qwen-teacher truncation ablations, compressed traces reduce training tokens to 12-30% of raw, speed up training by 2.0-7.6x, and shorten inference outputs by 3-19x with smaller reductions under the shorter gpt-oss teacher. However, raw traces retain the highest downstream accuracy at every scale and for both teachers. A length-matched raw-trace truncation ablation shows that compression is not merely benefiting from a smaller token budget: model-compressed traces usually beat or match naive truncation, especially for smaller students, while maintaining shorter inference outputs. Overall, reasoning-trace compression offers an accuracy-efficiency trade-off rather than a free improvement: students retain up to 96% of raw-trace accuracy while gaining up to 18x higher per-token efficiency, and at the 0.8B scale under LoRA compressed traces narrow the raw-vs-compressed gap but do not exceed raw.