共有を増やし、検索を減らす:効率的なテスト時スケーリングのための協調的並列思考
Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling
May 26, 2026
著者: Xinglin Wang, Hao Lin, Shaoxiong Feng, Peiwen Yuan, Yiwei Li, Jiayi Shi, Yueqi Zhang, Chuyi Tan, Ji Zhang, Boyuan Pan, Yao Hu, Kan Li
cs.AI
要旨
テスト時間スケーリング(TTS)は、追加の推論計算を割り当てて解空間を探索することで、大規模言語モデルの推論能力を強化する。しかし、既存の並列TTS手法では、探索中に分岐が通常分離されたままとなり、中間的な発見は分岐内に限定され、他の分岐にタイムリーにガイドを提供できない。この情報の分離により、分岐が既に他の場所で見つかった情報を繰り返し再発見し、正解に達するために必要な完全な決定情報を収集するためにより多くの探索ステップを要するため、相当な冗長探索が発生する。このギャップを埋めるために、我々は協調的並列思考(CPT)を提案する。これは、並列分岐間での探索時の情報共有を可能にする訓練不要の推論フレームワークである。CPTは進行中の分岐からコンパクトな中間情報を抽出し、重複排除されたクエリレベルの情報プールを維持し、プールエントリを入力コンテキストを通じてブロードキャストすることで、後続の探索ステップにおける各分岐が、同じ情報を再発見するのではなく、他の分岐による発見を再利用できるようにする。実験的に、HMMTおよびAIMEベンチマークでの実験は、CPTがロールアウト予算とモデルスケールにわたって、強力なベースラインよりも優れた精度-レイテンシのパレートフロンティアを確立することを示しており、探索時の協調が効率的な並列TTSのための有効な方向性であることを強調している。
English
Test-Time Scaling (TTS) enhances the reasoning capabilities of large language models by allocating additional inference compute to explore the solution space. However, existing parallel TTS methods typically keep branches isolated during search: intermediate discoveries remain branch-private and cannot guide other branches in time. This information isolation causes substantial redundant exploration, as branches repeatedly rediscover information already found elsewhere and require more search steps to collect complete decision information needed to reach correct answers. To bridge this gap, we propose Collaborative Parallel Thinking (CPT), a training-free inference framework that enables search-time information sharing across parallel branches. CPT extracts compact intermediate information from ongoing branches, maintains a deduplicated query-level information pool, and broadcasts pool entries through the input context, allowing each branch in subsequent search steps to reuse discoveries made by other branches rather than rediscover the same information. Empirically, experiments on HMMT and AIME benchmarks show that CPT establishes a stronger accuracy--latency Pareto frontier than strong baselines across rollout budgets and model scales, highlighting search-time collaboration as an effective direction for efficient parallel TTS.