OPE: アウトライン誘導型パス探索による並列思考における情報飽和の克服
OPE: Overcoming Information Saturation in Parallel Thinking via Outline-Guided Path Exploration
February 9, 2026
著者: Qi Guo, Jianing Wang, Deyang Kong, Xiangyu Xi, Jianfei Zhang, Yi Lu, Jingang Wang, Wei Wang, Shikun Zhang, Wei Ye
cs.AI
要旨
大規模推論モデル(LRM)における複雑な問題解決において、並列思考が新たなパラダイムとして登場している。近年の手法は、教師ありファインチューニングで遭遇する計算リソースと有効性の限界に対処するため、強化学習(RL)を活用して並列思考を強化することを目指している。しかし、既存研究の多くは主に集約段階の最適化に焦点を当てており、経路探索段階への注目は限られている。本論文では、検証可能な報酬を用いた強化学習(RLVR)設定下での並列思考の最適化を理論的に分析し、探索経路間の相互情報量ボトルネックが全体の性能を根本的に制限していることを明らかにする。この問題に対処するため、我々はアウトラインベース経路探索(OPE)を提案する。OPEは、並列経路推論の前に多様な推論アウトラインを生成することで解空間を明示的に分割し、情報の冗長性を低減し、探索経路間で捕捉される情報の多様性を向上させる。我々はOPEを、アウトラインプランニングとアウトラインベース推論を独立して最適化する反復的RL戦略で実装する。複数の難易度の高い数学的ベンチマークにおける広範な実験により、OPEが様々な集約戦略において推論性能を効果的に改善し、LRMが正しい解をより確実に発見できるようにすることを実証する。
English
Parallel thinking has emerged as a new paradigm for large reasoning models (LRMs) in tackling complex problems. Recent methods leverage Reinforcement Learning (RL) to enhance parallel thinking, aiming to address the limitations in computational resources and effectiveness encountered with supervised fine-tuning. However, most existing studies primarily focus on optimizing the aggregation phase, with limited attention to the path exploration stage. In this paper, we theoretically analyze the optimization of parallel thinking under the Reinforcement Learning with Verifiable Rewards (RLVR) setting, and identify that the mutual information bottleneck among exploration paths fundamentally restricts overall performance. To address this, we propose Outline-Guided Path Exploration (OPE), which explicitly partitions the solution space by generating diverse reasoning outlines prior to parallel path reasoning, thereby reducing information redundancy and improving the diversity of information captured across exploration paths. We implement OPE with an iterative RL strategy that optimizes outline planning and outline-guided reasoning independently. Extensive experiments across multiple challenging mathematical benchmarks demonstrate that OPE effectively improves reasoning performance in different aggregation strategies, enabling LRMs to more reliably discover correct solutions.