ChatPaper.aiChatPaper

PaCoRe: Обучение масштабированию вычислительных ресурсов на этапе тестирования с помощью параллельного скоординированного рассуждения

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

January 9, 2026
Авторы: Jingcheng Hu, Yinmin Zhang, Shijie Shang, Xiaobo Yang, Yue Peng, Zhewei Huang, Hebin Zhou, Xin Wu, Jie Cheng, Fanqi Wan, Xiangwen Kong, Chengyuan Yao, Kaiwen Yan, Ailin Huang, Hongyu Zhou, Qi Han, Zheng Ge, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI

Аннотация

Мы представляем Parallel Coordinated Reasoning (PaCoRe) — фреймворк для обучения и вывода, предназначенный для преодоления ключевого ограничения современных языковых моделей: их неспособности значительно масштабировать вычислительные ресурсы на этапе тестирования (TTC) за пределы последовательных рассуждений в рамках фиксированного контекстного окна. PaCoRe отходит от традиционной последовательной парадигмы, обеспечивая масштабирование TTC за счёт массового параллельного исследования, координируемого через архитектуру передачи сообщений в несколько раундов. Каждый раунд запускает множество параллельных траекторий рассуждений, компактизирует их результаты в сообщения, ограниченные размером контекста, и синтезирует эти сообщения для руководства следующим раундом и, в конечном счёте, для формирования окончательного ответа. Модель, обученная сквозным образом с помощью масштабируемого обучения с подкреплением на основе результатов, осваивает навыки синтеза, необходимые для PaCoRe, и масштабируется до эффективного TTC в миллионы токенов, не превышая ограничений контекста. Данный подход демонстрирует значительное улучшение результатов в различных областях и, что особенно примечательно, выводит рассуждения за пределы возможностей передовых систем в математике: модель с 8 миллиардами параметров достигает 94.5% на HMMT 2025, превосходя результат GPT-5 (93.2%) за счёт масштабирования эффективного TTC примерно до двух миллионов токенов. Мы открываем исходный код чекпоинтов модели, данных для обучения и полного конвейера вывода для ускорения последующих исследований.
English
We introduce Parallel Coordinated Reasoning (PaCoRe), a training-and-inference framework designed to overcome a central limitation of contemporary language models: their inability to scale test-time compute (TTC) far beyond sequential reasoning under a fixed context window. PaCoRe departs from the traditional sequential paradigm by driving TTC through massive parallel exploration coordinated via a message-passing architecture in multiple rounds. Each round launches many parallel reasoning trajectories, compacts their findings into context-bounded messages, and synthesizes these messages to guide the next round and ultimately produce the final answer. Trained end-to-end with large-scale, outcome-based reinforcement learning, the model masters the synthesis abilities required by PaCoRe and scales to multi-million-token effective TTC without exceeding context limits. The approach yields strong improvements across diverse domains, and notably pushes reasoning beyond frontier systems in mathematics: an 8B model reaches 94.5% on HMMT 2025, surpassing GPT-5's 93.2% by scaling effective TTC to roughly two million tokens. We open-source model checkpoints, training data, and the full inference pipeline to accelerate follow-up work.
PDF803January 31, 2026