PaCoRe: 並列調整推論によるテスト時間計算リソースのスケーリング学習
PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning
January 9, 2026
著者: Jingcheng Hu, Yinmin Zhang, Shijie Shang, Xiaobo Yang, Yue Peng, Zhewei Huang, Hebin Zhou, Xin Wu, Jie Cheng, Fanqi Wan, Xiangwen Kong, Chengyuan Yao, Kaiwen Yan, Ailin Huang, Hongyu Zhou, Qi Han, Zheng Ge, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI
要旨
本論文では、Parallel Coordinated Reasoning (PaCoRe) を提案する。これは、現代の言語モデルが持つ根本的な限界、すなわち固定されたコンテキストウィンドウ内での逐次推論を超えて、テスト時計算量(TTC)を大幅にスケールアップできないという問題を克服するために設計された、訓練と推論のフレームワークである。PaCoReは、従来の逐次的なパラダイムから脱却し、メッセージパッシングアーキテクチャによる複数ラウンドの調整を経て、大規模な並列探索によってTTCを推進する。各ラウンドでは、多数の並列推論トラジェクトリを起動し、その発見をコンテキスト限界内のメッセージに圧縮し、これらのメッセージを統合して次のラウンドを導き、最終的に答えを生成する。大規模な結果ベースの強化学習によるエンドツーエンドの訓練により、モデルはPaCoReが必要とする統合能力を習得し、コンテキスト限界を超えることなく、実質数百万トークンに及ぶTTCへとスケールする。このアプローチは様々な領域で顕著な改善をもたらし、特に数学においてフロンティアシステムの性能を凌駕する:80億パラメータモデルがHMMT 2025で94.5%を達成し、実質TTCを約200万トークンにスケールさせることでGPT-5の93.2%を上回った。追従研究を加速させるため、モデルチェックポイント、訓練データ、および完全な推論パイプラインをオープンソースとして公開する。
English
We introduce Parallel Coordinated Reasoning (PaCoRe), a training-and-inference framework designed to overcome a central limitation of contemporary language models: their inability to scale test-time compute (TTC) far beyond sequential reasoning under a fixed context window. PaCoRe departs from the traditional sequential paradigm by driving TTC through massive parallel exploration coordinated via a message-passing architecture in multiple rounds. Each round launches many parallel reasoning trajectories, compacts their findings into context-bounded messages, and synthesizes these messages to guide the next round and ultimately produce the final answer. Trained end-to-end with large-scale, outcome-based reinforcement learning, the model masters the synthesis abilities required by PaCoRe and scales to multi-million-token effective TTC without exceeding context limits. The approach yields strong improvements across diverse domains, and notably pushes reasoning beyond frontier systems in mathematics: an 8B model reaches 94.5% on HMMT 2025, surpassing GPT-5's 93.2% by scaling effective TTC to roughly two million tokens. We open-source model checkpoints, training data, and the full inference pipeline to accelerate follow-up work.