推論LLMにおける冗長な内省の削減のためのグラフベース思考連鎖枝刈り
Graph-Based Chain-of-Thought Pruning for Reducing Redundant Reflections in Reasoning LLMs
April 7, 2026
著者: Hongyuan Yuan, Xinran He, Run Shao, Bolei He, Xianwei Xue, Mengke Chen, Qiutong Pan, Haiwei Wang, Haifeng Li
cs.AI
要旨
思考連鎖(CoT)の強化学習(RL)による拡張は、大規模言語モデル(LLM)の推論能力を強化するために広く用いられてきた。しかし、報酬信号の希薄性のため、過剰思考(すなわち、冗長な中間推論内容の生成)といった望ましくない思考パターンを誘発する可能性もある。本研究では、このような冗長性の主要な原因は非効率な「反射(reflection)」にあると主張する。これは主に、2つの問題のあるパターンとして現れる:無差別な反射(推論全体を通じて広範だが影響の小ないチェックを行う)と、反復的な反射(既に確立された結論を繰り返し再検証する)。この問題に対処するため、我々はグラフベースのCoT最適化フレームワークを提案する。具体的には、各線形CoTを明示的な依存関係エッジを持つ有向非巡回グラフ(DAG)に変換し、二重の枝刈り戦略を設計する:分岐レベル枝刈りは寄与の弱い反射分岐を削除し、深さレベル枝刈りは後段階での再検証を除去する。この振る舞いを、3段階のパイプラインで蒸留する:(1) 刈り込まれた簡潔な推論軌跡でポリシーを初期化するSFT、(2) 正しくかつ冗長性の少ない軌道を選好するDPO、(3) 回答の正確性と効率性を同時に最適化する長さペナルティ付きGRPO。実験により、本手法が平均推論トークン数を42%削減しつつ、精度を維持または向上させることを示す。
English
Extending CoT through RL has been widely used to enhance the reasoning capabilities of LLMs. However, due to the sparsity of reward signals, it can also induce undesirable thinking patterns such as overthinking, i.e., generating redundant intermediate reasoning content. In this work, we argue that a major source of such redundancy is inefficient reflection, which often manifests in two problematic patterns: Indiscriminate Reflection, where the model performs broad, low-impact checks throughout reasoning, and Repetitive Reflection, where it repeatedly re-verifies an already established conclusion. To address this, we introduce a graph-based CoT optimization framework. Specifically, we convert each linear CoT into a directed acyclic graph (DAG) with explicit dependency edges, and design a dual pruning strategy: branch-level pruning removes weakly contributing reflection branches, while depth-level pruning eliminates late-stage re-verification. We distill this behavior via a three-stage pipeline: (1) SFT to initialize the policy on pruned concise traces, (2) DPO to prefer correct but less redundant trajectories, and (3) GRPO with length penalty to jointly optimize answer correctness and efficiency. Experiments show that our approach reduces the average reasoning tokens by 42\% while maintaining or improving accuracy.