PaCoRe: Skalierung von Testzeit-Rechenleistung durch paralleles koordiniertes Schließen

papers.abstract

Wir stellen Parallel Coordinated Reasoning (PaCoRe) vor, ein Trainings- und Inferenz-Framework, das entwickelt wurde, um eine zentrale Einschränkung aktueller Sprachmodelle zu überwinden: ihre Unfähigkeit, den Test-Time Compute (TTC) weit über sequenzielles Reasoning unter einem festen Kontextfenster hinaus zu skalieren. PaCoRe verlässt das traditionelle sequenzielle Paradigma, indem es den TTC durch massive parallele Erkundung antreibt, die über eine Nachrichtenübertragungsarchitektur in mehreren Runden koordiniert wird. Jede Runde startet viele parallele Reasoning-Pfade, verdichtet deren Erkenntnisse in kontextbegrenzte Nachrichten und synthetisiert diese Nachrichten, um die nächste Runde zu steuern und letztendlich die endgültige Antwort zu erzeugen. Das Modell wird end-to-end mit large-scale, ergebnisbasiertem Reinforcement Learning trainiert, beherrscht die für PaCoRe erforderlichen Synthesefähigkeiten und skaliert auf einen effektiven TTC im Bereich von mehreren Millionen Tokens, ohne die Kontextgrenzen zu überschreiten. Der Ansatz führt zu deutlichen Verbesserungen in verschiedenen Domänen und treibt das Reasoning insbesondere in der Mathematik über die Fähigkeiten von Frontier-Systemen hinaus: Ein 8B-Modell erreicht 94,5 % auf HMMT 2025 und übertrifft damit GPT-5 mit 93,2 %, indem es den effektiven TTC auf etwa zwei Millionen Tokens skaliert. Wir veröffentlichen Modell-Checkpoints, Trainingsdaten und die vollständige Inferenz-Pipeline als Open Source, um Folgearbeiten zu beschleunigen.

English

We introduce Parallel Coordinated Reasoning (PaCoRe), a training-and-inference framework designed to overcome a central limitation of contemporary language models: their inability to scale test-time compute (TTC) far beyond sequential reasoning under a fixed context window. PaCoRe departs from the traditional sequential paradigm by driving TTC through massive parallel exploration coordinated via a message-passing architecture in multiple rounds. Each round launches many parallel reasoning trajectories, compacts their findings into context-bounded messages, and synthesizes these messages to guide the next round and ultimately produce the final answer. Trained end-to-end with large-scale, outcome-based reinforcement learning, the model masters the synthesis abilities required by PaCoRe and scales to multi-million-token effective TTC without exceeding context limits. The approach yields strong improvements across diverse domains, and notably pushes reasoning beyond frontier systems in mathematics: an 8B model reaches 94.5% on HMMT 2025, surpassing GPT-5's 93.2% by scaling effective TTC to roughly two million tokens. We open-source model checkpoints, training data, and the full inference pipeline to accelerate follow-up work.

PaCoRe: Skalierung von Testzeit-Rechenleistung durch paralleles koordiniertes Schließen

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

papers.abstract

Support