PaCoRe: Schaalbaar Testtijdberekening Leren met Parallel Gecoördineerd Redeneren
PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning
January 9, 2026
Auteurs: Jingcheng Hu, Yinmin Zhang, Shijie Shang, Xiaobo Yang, Yue Peng, Zhewei Huang, Hebin Zhou, Xin Wu, Jie Cheng, Fanqi Wan, Xiangwen Kong, Chengyuan Yao, Kaiwen Yan, Ailin Huang, Hongyu Zhou, Qi Han, Zheng Ge, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI
Samenvatting
Wij introduceren Parallel Gecoördineerd Redeneren (PaCoRe), een trainings- en inferentiekader dat is ontworpen om een centrale beperking van hedendaagse taalmodel(len) te overwinnen: hun onvermogen om rekentijd tijdens testen (TTC) significant verder te schalen dan sequentieel redeneren binnen een vaste contextvenstergrootte. PaCoRe wijkt af van het traditionele sequentiële paradigma door TTC te sturen via massale parallelle exploratie, gecoördineerd via een message-passing-architectuur in meerdere rondes. Elke ronde lanceert vele parallelle redeneertrajecten, comprimeert hun bevindingen tot contextgebonden berichten, en synthetiseert deze berichten om de volgende ronde te sturen en uiteindelijk het definitieve antwoord te produceren. Het model, end-to-end getraind met grootschalige, op uitkomsten gebaseerde reinforcement learning, beheerst de synthesevaardigheden die PaCoRe vereist en schaalt naar een effectieve TTC van miljoenen tokens zonder de contextlimieten te overschrijden. Deze aanpak levert sterke verbeteringen op in diverse domeinen, en duwt het redeneren vooral voorbij frontier-systemen in de wiskunde: een 8B-model behaalt 94.5% op HMMT 2025, en overtreft daarmee GPT-5's 93.2% door de effectieve TTC te schalen tot ongeveer twee miljoen tokens. Wij maken modelcheckpoints, trainingsdata en de volledige inferentiepipeline open source om vervolgwerk te versnellen.
English
We introduce Parallel Coordinated Reasoning (PaCoRe), a training-and-inference framework designed to overcome a central limitation of contemporary language models: their inability to scale test-time compute (TTC) far beyond sequential reasoning under a fixed context window. PaCoRe departs from the traditional sequential paradigm by driving TTC through massive parallel exploration coordinated via a message-passing architecture in multiple rounds. Each round launches many parallel reasoning trajectories, compacts their findings into context-bounded messages, and synthesizes these messages to guide the next round and ultimately produce the final answer. Trained end-to-end with large-scale, outcome-based reinforcement learning, the model masters the synthesis abilities required by PaCoRe and scales to multi-million-token effective TTC without exceeding context limits. The approach yields strong improvements across diverse domains, and notably pushes reasoning beyond frontier systems in mathematics: an 8B model reaches 94.5% on HMMT 2025, surpassing GPT-5's 93.2% by scaling effective TTC to roughly two million tokens. We open-source model checkpoints, training data, and the full inference pipeline to accelerate follow-up work.