PaCoRe: Apprendere a Scalare il Calcolo al Momento del Test con il Ragionamento Coordinato Parallelo

Abstract

Introduciamo Parallel Coordinated Reasoning (PaCoRe), un framework di addestramento e inferenza progettato per superare una limitazione centrale dei modelli linguistici contemporanei: l'incapacità di scalare il calcolo al tempo di test (TTC) ben oltre il ragionamento sequenziale sotto un contesto di finestra fisso. PaCoRe si discorda dal paradigma sequenziale tradizionale guidando il TTC attraverso un'esplorazione massivamente parallela coordinata tramite un'architettura di message-passing in più round. Ogni round avvia molteplici traiettorie di ragionamento parallele, compatta i loro risultati in messaggi limitati dal contesto e sintetizza questi messaggi per guidare il round successivo e produrre infine la risposta finale. Addestrato end-to-end con reinforcement learning su larga scala e basato sugli outcome, il modello padroneggia le abilità di sintesi richieste da PaCoRe e scala a TTC effettivo di milioni di token senza superare i limiti del contesto. L'approccio produce forti miglioramenti in diversi domini e, in particolare, spinge il ragionamento oltre i sistemi all'avanguardia in matematica: un modello da 8B raggiunge il 94.5% su HMMT 2025, superando il 93.2% di GPT-5 scalando il TTC effettivo a circa due milioni di token. Rendiamo open-source i checkpoint del modello, i dati di addestramento e l'intera pipeline di inferenza per accelerare il lavoro successivo.

English

We introduce Parallel Coordinated Reasoning (PaCoRe), a training-and-inference framework designed to overcome a central limitation of contemporary language models: their inability to scale test-time compute (TTC) far beyond sequential reasoning under a fixed context window. PaCoRe departs from the traditional sequential paradigm by driving TTC through massive parallel exploration coordinated via a message-passing architecture in multiple rounds. Each round launches many parallel reasoning trajectories, compacts their findings into context-bounded messages, and synthesizes these messages to guide the next round and ultimately produce the final answer. Trained end-to-end with large-scale, outcome-based reinforcement learning, the model masters the synthesis abilities required by PaCoRe and scales to multi-million-token effective TTC without exceeding context limits. The approach yields strong improvements across diverse domains, and notably pushes reasoning beyond frontier systems in mathematics: an 8B model reaches 94.5% on HMMT 2025, surpassing GPT-5's 93.2% by scaling effective TTC to roughly two million tokens. We open-source model checkpoints, training data, and the full inference pipeline to accelerate follow-up work.

PaCoRe: Apprendere a Scalare il Calcolo al Momento del Test con il Ragionamento Coordinato Parallelo

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

Abstract

Support