사고 과정에서 중복 반영을 줄이기 위한 그래프 기반 연쇄적 사고 가지치기
Graph-Based Chain-of-Thought Pruning for Reducing Redundant Reflections in Reasoning LLMs
April 7, 2026
저자: Hongyuan Yuan, Xinran He, Run Shao, Bolei He, Xianwei Xue, Mengke Chen, Qiutong Pan, Haiwei Wang, Haifeng Li
cs.AI
초록
CoT의 RL 기반 확장은 LLM의 추론 능력 향상을 위해 널리 사용되어 왔습니다. 그러나 보상 신호의 희소성으로 인해 과도한 사고(overthinking), 즉 불필요한 중간 추론 내용을 생성하는 같은 바람직하지 않은 사고 패턴을 유발할 수도 있습니다. 본 연구에서는 이러한 중복성의 주요 원인이 비효율적인 성찰(reflection)이라고 주장하며, 이는 주로 두 가지 문제적 패턴으로 나타납니다: 첫째, 모델이 추론 과정 전반에 걸쳐 광범위하고 영향력이 낮은 점검을 수행하는 '무분별한 성찰(Indiscriminate Reflection)', 둘째, 이미 확립된 결론을 반복적으로 재검증하는 '반복적 성찰(Repetitive Reflection)'입니다. 이를 해결하기 위해 우리는 그래프 기반 CoT 최적화 프레임워크를 제안합니다. 구체적으로, 각 선형 CoT를 명시적인 의존성 간선을 가진 방향성 비순환 그래프(DAG)로 변환하고 이중 가지치기 전략을 설계합니다: 분기 수준 가지치기(branch-level pruning)는 기여도가 낮은 성찰 분기를 제거하고, 깊이 수준 가지치기(depth-level pruning)는 후반부 재검증을 제거합니다. 우리는 3단계 파이프라인을 통해 이 행동을 증류합니다: (1) SFT를 통해 정제된 간결한 추적(trace)으로 정책을 초기화하고, (2) DPO를 통해 정확하지만 덜 중복된 궤적을 선호하도록 하며, (3) GRPO와 길이 패널티를 결합하여 정답 정확도와 효율성을 함께 최적화합니다. 실험 결과, 우리의 접근법은 정확도를 유지하거나 향상시키면서 평균 추론 토큰 수를 42% 줄이는 것으로 나타났습니다.
English
Extending CoT through RL has been widely used to enhance the reasoning capabilities of LLMs. However, due to the sparsity of reward signals, it can also induce undesirable thinking patterns such as overthinking, i.e., generating redundant intermediate reasoning content. In this work, we argue that a major source of such redundancy is inefficient reflection, which often manifests in two problematic patterns: Indiscriminate Reflection, where the model performs broad, low-impact checks throughout reasoning, and Repetitive Reflection, where it repeatedly re-verifies an already established conclusion. To address this, we introduce a graph-based CoT optimization framework. Specifically, we convert each linear CoT into a directed acyclic graph (DAG) with explicit dependency edges, and design a dual pruning strategy: branch-level pruning removes weakly contributing reflection branches, while depth-level pruning eliminates late-stage re-verification. We distill this behavior via a three-stage pipeline: (1) SFT to initialize the policy on pruned concise traces, (2) DPO to prefer correct but less redundant trajectories, and (3) GRPO with length penalty to jointly optimize answer correctness and efficiency. Experiments show that our approach reduces the average reasoning tokens by 42\% while maintaining or improving accuracy.