ChatPaper.aiChatPaper

OPE: 개요 기반 경로 탐색을 통한 병렬 사고의 정보 포화 극복

OPE: Overcoming Information Saturation in Parallel Thinking via Outline-Guided Path Exploration

February 9, 2026
저자: Qi Guo, Jianing Wang, Deyang Kong, Xiangyu Xi, Jianfei Zhang, Yi Lu, Jingang Wang, Wei Wang, Shikun Zhang, Wei Ye
cs.AI

초록

병렬 사고는 복잡한 문제 해결을 위한 대규모 추론 모델(LRMs)의 새로운 패러다임으로 부상했습니다. 최근 방법들은 지도 미세 조정에서 발생하는 계산 자원 및 효과성의 한계를 해결하기 위해 강화 학습(RL)을 활용하여 병렬 사고를 향상시키고자 합니다. 그러나 기존 연구의 대부분은 주로 집계 단계 최적화에 초점을 맞추고, 경로 탐색 단계에는 제한된 관심만을 기울여 왔습니다. 본 논문에서는 검증 가능한 보상을 활용한 강화 학습(RLVR) 설정 하에서 병렬 사고의 최적화를 이론적으로 분석하고, 탐색 경로 간 상호 정보 병목 현상이 전체 성능을 근본적으로 제한함을 규명합니다. 이를 해결하기 위해 우리는 솔루션 공간을 사전에 다양한 추론 개요를 생성하여 명시적으로 분할함으로써 정보 중복성을 줄이고 탐색 경로 전반에 포착되는 정보의 다양성을 향상시키는 개요 안내 경로 탐색(OPE)을 제안합니다. 우리는 개요 계획과 개요 기반 추론을 독립적으로 최적화하는 반복적 RL 전략으로 OPE를 구현합니다. 여러 까다로운 수학 벤치마크에서 진행한 폭넓은 실험을 통해 OPE가 다양한 집계 전략에서 추론 성능을 효과적으로 향상시켜 LRMs가 올바른 해법을 더욱 신뢰성 있게 발견할 수 있게 함을 입증합니다.
English
Parallel thinking has emerged as a new paradigm for large reasoning models (LRMs) in tackling complex problems. Recent methods leverage Reinforcement Learning (RL) to enhance parallel thinking, aiming to address the limitations in computational resources and effectiveness encountered with supervised fine-tuning. However, most existing studies primarily focus on optimizing the aggregation phase, with limited attention to the path exploration stage. In this paper, we theoretically analyze the optimization of parallel thinking under the Reinforcement Learning with Verifiable Rewards (RLVR) setting, and identify that the mutual information bottleneck among exploration paths fundamentally restricts overall performance. To address this, we propose Outline-Guided Path Exploration (OPE), which explicitly partitions the solution space by generating diverse reasoning outlines prior to parallel path reasoning, thereby reducing information redundancy and improving the diversity of information captured across exploration paths. We implement OPE with an iterative RL strategy that optimizes outline planning and outline-guided reasoning independently. Extensive experiments across multiple challenging mathematical benchmarks demonstrate that OPE effectively improves reasoning performance in different aggregation strategies, enabling LRMs to more reliably discover correct solutions.
PDF41February 12, 2026