PaCoRe: Aprendendo a Dimensionar o Cálculo em Tempo de Teste com Raciocínio Coordenado Paralelo

Resumo

Apresentamos o Raciocínio Coordenado Paralelo (PaCoRe), uma estrutura de treinamento e inferência projetada para superar uma limitação central dos modelos de linguagem contemporâneos: sua incapacidade de escalar o cálculo em tempo de teste (TTC) muito além do raciocínio sequencial sob uma janela de contexto fixa. O PaCoRe afasta-se do paradigma sequencial tradicional ao direcionar o TTC por meio de uma exploração maciçamente paralela, coordenada via uma arquitetura de passagem de mensagens em múltiplas rodadas. Cada rodada lança várias trajetórias de raciocínio paralelas, compacta suas descobertas em mensagens limitadas pelo contexto e sintetiza essas mensagens para orientar a próxima rodada e, por fim, produzir a resposta final. Treinado de ponta a ponta com aprendizado por reforço em larga escala baseado em resultados, o modelo domina as habilidades de síntese exigidas pelo PaCoRe e escala para um TTC efetivo de múltiplos milhões de *tokens* sem exceder os limites de contexto. A abordagem produz melhorias significativas em diversos domínios e, notavelmente, leva o raciocínio além dos sistemas de fronteira em matemática: um modelo de 8B atinge 94,5% no HMMT 2025, superando os 93,2% do GPT-5 ao escalar o TTC efetivo para aproximadamente dois milhões de *tokens*. Disponibilizamos publicamente *checkpoints* do modelo, dados de treinamento e o *pipeline* completo de inferência para acelerar trabalhos subsequentes.

English

We introduce Parallel Coordinated Reasoning (PaCoRe), a training-and-inference framework designed to overcome a central limitation of contemporary language models: their inability to scale test-time compute (TTC) far beyond sequential reasoning under a fixed context window. PaCoRe departs from the traditional sequential paradigm by driving TTC through massive parallel exploration coordinated via a message-passing architecture in multiple rounds. Each round launches many parallel reasoning trajectories, compacts their findings into context-bounded messages, and synthesizes these messages to guide the next round and ultimately produce the final answer. Trained end-to-end with large-scale, outcome-based reinforcement learning, the model masters the synthesis abilities required by PaCoRe and scales to multi-million-token effective TTC without exceeding context limits. The approach yields strong improvements across diverse domains, and notably pushes reasoning beyond frontier systems in mathematics: an 8B model reaches 94.5% on HMMT 2025, surpassing GPT-5's 93.2% by scaling effective TTC to roughly two million tokens. We open-source model checkpoints, training data, and the full inference pipeline to accelerate follow-up work.

PaCoRe: Aprendendo a Dimensionar o Cálculo em Tempo de Teste com Raciocínio Coordenado Paralelo

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

Resumo

Support