ステップエントロピーを用いたLLMにおける連鎖思考の圧縮
Compressing Chain-of-Thought in LLMs via Step Entropy
August 5, 2025
著者: Zeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu
cs.AI
要旨
Chain-of-Thought(CoT)プロンプティングを用いた大規模言語モデル(LLMs)は、複雑な推論において優れた性能を発揮しますが、冗長性の高い冗長な思考プロセスを生成し、推論コストの増加と効率の低下を招きます。本研究では、個々の推論ステップの情報的貢献を定量化する指標であるステップエントロピーに基づく新しいCoT圧縮フレームワークを提案します。理論的分析と数学的推論ベンチマークにおける広範な実証検証を通じて、低エントロピーのステップが実際に高度に冗長であることを示します。実験結果から、DeepSeek-R1-7B、14B、およびQwen3-8Bにおいて、低エントロピーの中間ステップの驚くべき80%を、最終的な回答精度のわずかな低下で削除できることが明らかになりました。この発見は、ランダムまたは高エントロピーのプルーニングが推論性能を著しく損なうこととは対照的です。これに基づいて、Supervised Fine-Tuning(SFT)とGroup Relative Policy Optimization(GRPO)強化学習を組み合わせた新しい2段階のトレーニング戦略を提案します。このアプローチにより、LLMsは推論中に[SKIP]トークンを戦略的に組み込むことで、圧縮されたCoTを自律的に生成することを学習します。本手法は、LLMの推論効率を大幅に向上させつつ、精度を厳密に維持し、実用的なLLMの展開と推論構造の深い理解に重要な示唆を提供します。
English
Large Language Models (LLMs) using Chain-of-Thought (CoT) prompting excel at
complex reasoning but generate verbose thought processes with considerable
redundancy, leading to increased inference costs and reduced efficiency. We
introduce a novel CoT compression framework based on step entropy, a metric
that quantifies the informational contribution of individual reasoning steps to
identify redundancy. Through theoretical analysis and extensive empirical
validation on mathematical reasoning benchmarks, we demonstrate that steps with
low entropy are indeed highly redundant. Our experiments reveal that an
astonishing 80\% of low-entropy intermediate steps can be pruned with minor
degradation in the final answer accuracy across DeepSeek-R1-7B, 14B and
Qwen3-8B. This finding sharply contrasts with random or high-entropy pruning,
which severely impairs reasoning performance. Building on this, we propose a
novel two-stage training strategy combining Supervised Fine-Tuning (SFT) and
Group Relative Policy Optimization (GRPO) reinforcement learning. This approach
enables LLMs to autonomously learn to generate compressed COTs during inference
by strategically incorporating [SKIP] tokens. Our method significantly enhances
LLM inference efficiency while rigorously preserving accuracy, offering
profound implications for practical LLM deployment and a deeper understanding
of reasoning structures.