PaCoRe: Aprendizaje para Escalar el Cálculo en Tiempo de Prueba con Razonamiento Coordinado en Paralelo
PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning
January 9, 2026
Autores: Jingcheng Hu, Yinmin Zhang, Shijie Shang, Xiaobo Yang, Yue Peng, Zhewei Huang, Hebin Zhou, Xin Wu, Jie Cheng, Fanqi Wan, Xiangwen Kong, Chengyuan Yao, Kaiwen Yan, Ailin Huang, Hongyu Zhou, Qi Han, Zheng Ge, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI
Resumen
Introducimos Razonamiento Coordinado en Paralelo (PaCoRe), un marco de entrenamiento e inferencia diseñado para superar una limitación central de los modelos de lenguaje contemporáneos: su incapacidad para escalar el cómputo en tiempo de prueba (TTC, por sus siglas en inglés) más allá del razonamiento secuencial bajo una ventana de contexto fija. PaCoRe se aparta del paradigma secuencial tradicional al impulsar el TTC mediante una exploración masiva en paralelo coordinada a través de una arquitectura de paso de mensajes en múltiples rondas. Cada ronda lanza muchas trayectorias de razonamiento paralelas, compacta sus hallazgos en mensajes acotados por el contexto y sintetiza estos mensajes para guiar la siguiente ronda y, en última instancia, producir la respuesta final. Entrenado de extremo a extremo con aprendizaje por refuerzo a gran escala basado en resultados, el modelo domina las habilidades de síntesis requeridas por PaCoRe y escala a TTC efectivo de múltiples millones de tokens sin exceder los límites del contexto. El enfoque produce mejoras sólidas en diversos dominios, y notablemente lleva el razonamiento más allá de los sistemas de vanguardia en matemáticas: un modelo de 8B alcanza un 94.5% en HMMT 2025, superando el 93.2% de GPT-5 al escalar el TTC efectivo a aproximadamente dos millones de tokens. Liberamos como código abierto los puntos de control del modelo, los datos de entrenamiento y la canalización completa de inferencia para acelerar el trabajo de seguimiento.
English
We introduce Parallel Coordinated Reasoning (PaCoRe), a training-and-inference framework designed to overcome a central limitation of contemporary language models: their inability to scale test-time compute (TTC) far beyond sequential reasoning under a fixed context window. PaCoRe departs from the traditional sequential paradigm by driving TTC through massive parallel exploration coordinated via a message-passing architecture in multiple rounds. Each round launches many parallel reasoning trajectories, compacts their findings into context-bounded messages, and synthesizes these messages to guide the next round and ultimately produce the final answer. Trained end-to-end with large-scale, outcome-based reinforcement learning, the model masters the synthesis abilities required by PaCoRe and scales to multi-million-token effective TTC without exceeding context limits. The approach yields strong improvements across diverse domains, and notably pushes reasoning beyond frontier systems in mathematics: an 8B model reaches 94.5% on HMMT 2025, surpassing GPT-5's 93.2% by scaling effective TTC to roughly two million tokens. We open-source model checkpoints, training data, and the full inference pipeline to accelerate follow-up work.