PaCoRe: 병렬 조정 추론을 통한 테스트 시간 계산 확장 학습
PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning
January 9, 2026
저자: Jingcheng Hu, Yinmin Zhang, Shijie Shang, Xiaobo Yang, Yue Peng, Zhewei Huang, Hebin Zhou, Xin Wu, Jie Cheng, Fanqi Wan, Xiangwen Kong, Chengyuan Yao, Kaiwen Yan, Ailin Huang, Hongyu Zhou, Qi Han, Zheng Ge, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI
초록
우리는 기존 언어 모델의 핵심적 한계, 즉 고정된 컨텍스트 윈도우 내 순차 추론을 크게 벗어나지 못하는 테스트 타임 컴퓨팅(TTC) 확장 불가능 문제를 해결하기 위해 설계된 훈련 및 추론 프레임워크인 병렬 조정 추론(PaCoRe)을 소개한다. PaCoRe는 메시지 전달 아키텍처를 통해 다중 라운드에 걸쳐 조정되는 대규모 병렬 탐색으로 TTC를 수행함으로써 기존 순차 패러다임에서 벗어난다. 각 라운드는 여러 병렬 추론 경로를 시작하고, 그 결과를 컨텍스트 한도 내 메시지로 압축하며, 이러한 메시지를 종합하여 다음 라운드를 안내하고 궁극적으로 최종 답변을 도출한다. 대규모 결과 기반 강화 학습으로 엔드투엔드 훈련된 모델은 PaCoRe가 요구하는 종합 능력을 습득하며 컨텍스트 한도를 초과하지 않으면서 수백만 토큰에 달하는 효과적 TTC로 확장된다. 이 접근법은 다양한 영역에서 강력한 성능 향상을 보이며, 특히 수학 영역에서 최첨단 시스템을 넘어서는 추론 능력을 보인다: 80억 파라미터 모델이 효과적 TTC를 약 200만 토큰 규모로 확장하여 HMMT 2025에서 94.5%를 달성하며 GPT-5의 93.2%를 능가한다. 후속 연구 가속화를 위해 모델 체크포인트, 훈련 데이터 및 전체 추론 파이프라인을 공개한다.
English
We introduce Parallel Coordinated Reasoning (PaCoRe), a training-and-inference framework designed to overcome a central limitation of contemporary language models: their inability to scale test-time compute (TTC) far beyond sequential reasoning under a fixed context window. PaCoRe departs from the traditional sequential paradigm by driving TTC through massive parallel exploration coordinated via a message-passing architecture in multiple rounds. Each round launches many parallel reasoning trajectories, compacts their findings into context-bounded messages, and synthesizes these messages to guide the next round and ultimately produce the final answer. Trained end-to-end with large-scale, outcome-based reinforcement learning, the model masters the synthesis abilities required by PaCoRe and scales to multi-million-token effective TTC without exceeding context limits. The approach yields strong improvements across diverse domains, and notably pushes reasoning beyond frontier systems in mathematics: an 8B model reaches 94.5% on HMMT 2025, surpassing GPT-5's 93.2% by scaling effective TTC to roughly two million tokens. We open-source model checkpoints, training data, and the full inference pipeline to accelerate follow-up work.