PaCoRe : Apprentissage de la mise à l'échelle du calcul au moment du test par un raisonnement coordonné en parallèle

papers.abstract

Nous présentons Parallel Coordinated Reasoning (PaCoRe), un cadre d'apprentissage et d'inférence conçu pour surmonter une limitation centrale des modèles de langage contemporains : leur incapacité à faire évoluer le calcul au moment du test (TTC) bien au-delà du raisonnement séquentiel sous une fenêtre de contexte fixe. PaCoRe s'écarte du paradigme séquentiel traditionnel en pilotant le TTC via une exploration massive parallèle coordonnée via une architecture de passage de messages en plusieurs tours. Chaque tour lance de nombreuses trajectoires de raisonnement parallèles, condense leurs résultats en messages limités par le contexte, et synthétise ces messages pour guider le tour suivant et produire finalement la réponse définitive. Entraîné de bout en bout par un apprentissage par renforcement à grande échelle basé sur les résultats, le modèle maîtrise les capacités de synthèse requises par PaCoRe et passe à un TTC effectif de plusieurs millions de jetons sans dépasser les limites du contexte. Cette approche produit de fortes améliorations dans divers domaines, et pousse notamment le raisonnement au-delà des systèmes de pointe en mathématiques : un modèle de 8B atteint 94,5 % sur HMMT 2025, surpassant les 93,2 % de GPT-5 en faisant évoluer le TTC effectif à environ deux millions de jetons. Nous mettons en open source les points de contrôle du modèle, les données d'entraînement et la pipeline d'inférence complète pour accélérer les travaux de suivi.

English

We introduce Parallel Coordinated Reasoning (PaCoRe), a training-and-inference framework designed to overcome a central limitation of contemporary language models: their inability to scale test-time compute (TTC) far beyond sequential reasoning under a fixed context window. PaCoRe departs from the traditional sequential paradigm by driving TTC through massive parallel exploration coordinated via a message-passing architecture in multiple rounds. Each round launches many parallel reasoning trajectories, compacts their findings into context-bounded messages, and synthesizes these messages to guide the next round and ultimately produce the final answer. Trained end-to-end with large-scale, outcome-based reinforcement learning, the model masters the synthesis abilities required by PaCoRe and scales to multi-million-token effective TTC without exceeding context limits. The approach yields strong improvements across diverse domains, and notably pushes reasoning beyond frontier systems in mathematics: an 8B model reaches 94.5% on HMMT 2025, surpassing GPT-5's 93.2% by scaling effective TTC to roughly two million tokens. We open-source model checkpoints, training data, and the full inference pipeline to accelerate follow-up work.

PaCoRe : Apprentissage de la mise à l'échelle du calcul au moment du test par un raisonnement coordonné en parallèle

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

papers.abstract

Support