CoT-Valve: 長さ可縮性のChain-of-Thought Tuning
CoT-Valve: Length-Compressible Chain-of-Thought Tuning
February 13, 2025
著者: Xinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang
cs.AI
要旨
Chain-of-Thoughtは、モデルの推論能力を大幅に向上させますが、長いチェーンによる推論コストの著しい増加も伴います。推論パスは簡単なタスクでは簡単に圧縮できるが、難しいタスクでは苦労することが観察されたため、1つのモデルで推論パスの長さを弾力的に制御する可能性を探求し、タスクの難易度に基づいて推論モデルの推論オーバーヘッドを動的に削減することを目指します。CoT-Valveという新しい調整および推論戦略を導入し、モデルが異なる長さの推論チェーンを生成できるよう設計されています。これを実現するために、生成されたCoTの長さを効果的に制御できるように、パラメータ空間内の方向を特定することを提案します。さらに、この特性が推論チェーンを圧縮するのに有用であることを示します。同じ質問に対して長いから短いまでのチェーンを持つデータセットを構築し、CoT-Valveの2つの強化戦略を探求します:(1)正確な長さ圧縮可能なCoT調整方法、および(2)段階的なチェーン長圧縮アプローチ。実験では、CoT-Valveがチェーンの制御可能性と圧縮性を成功裏に実現し、プロンプトベースの制御よりも優れたパフォーマンスを示すことを示しました。この手法をQwQ-32B-Previewに適用し、GSM8Kの推論チェーンを741から225トークンに削減し、僅かなパフォーマンス低下(95.07%から94.92%)とAIMEから6827から4629トークンに削減し、1つの追加の不正解回答のみを生じました。
English
Chain-of-Thought significantly enhances a model's reasoning capability, but
it also comes with a considerable increase in inference costs due to long
chains. With the observation that the reasoning path can be easily compressed
under easy tasks but struggle on hard tasks, we explore the feasibility of
elastically controlling the length of reasoning paths with only one model,
thereby reducing the inference overhead of reasoning models dynamically based
on task difficulty. We introduce a new tuning and inference strategy named
CoT-Valve, designed to allow models to generate reasoning chains of varying
lengths. To achieve this, we propose to identify a direction in the parameter
space that, when manipulated, can effectively control the length of generated
CoT. Moreover, we show that this property is valuable for compressing the
reasoning chain. We construct datasets with chains from long to short for the
same questions and explore two enhanced strategies for CoT-Valve: (1) a precise
length-compressible CoT tuning method, and (2) a progressive chain length
compression approach. Our experiments show that CoT-Valve successfully enables
controllability and compressibility of the chain and shows better performance
than the prompt-based control. We applied this method to QwQ-32B-Preview,
reducing reasoning chains on GSM8K from 741 to 225 tokens with a minor
performance drop (95.07% to 94.92%) and on AIME from 6827 to 4629 tokens, with
only one additional incorrect answer.Summary
AI-Generated Summary