공유를 늘리고 검색을 줄여라: 효율적인 테스트 시간 스케일링을 위한 협력적 병렬 사고
Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling
May 26, 2026
저자: Xinglin Wang, Hao Lin, Shaoxiong Feng, Peiwen Yuan, Yiwei Li, Jiayi Shi, Yueqi Zhang, Chuyi Tan, Ji Zhang, Boyuan Pan, Yao Hu, Kan Li
cs.AI
초록
테스트-타임 스케일링(TTS)은 대규모 언어 모델의 추론 능력을 향상시키기 위해 추가적인 추론 계산을 할당하여 해 공간을 탐색한다. 그러나 기존의 병렬 TTS 방법은 일반적으로 탐색 과정에서 분기 간의 고립을 유지한다. 중간 발견 사항은 각 분기 내에서만 공유되며, 다른 분기들이 이를 적시에 활용할 수 없다. 이러한 정보 고립은 분기들이 이미 다른 곳에서 발견된 정보를 반복적으로 재발견하게 하고, 올바른 답변에 도달하기 위해 필요한 완전한 결정 정보를 수집하는 데 더 많은 탐색 단계를 요구함으로써 상당한 중복 탐색을 초래한다. 이러한 한계를 극복하기 위해, 우리는 협력적 병렬 사고(CPT)를 제안한다. 이는 학습이 필요 없는 추론 프레임워크로, 병렬 분기 간 탐색 시점의 정보 공유를 가능하게 한다. CPT는 진행 중인 분기로부터 간결한 중간 정보를 추출하고, 중복 제거된 쿼리 수준의 정보 풀을 유지하며, 이 풀의 항목들을 입력 컨텍스트를 통해 브로드캐스트하여 이후 탐색 단계에서 각 분기가 다른 분기의 발견을 재활용할 수 있게 한다. 즉, 동일한 정보를 재발견하지 않도록 한다. 실증적으로, HMMT 및 AIME 벤치마크에서의 실험 결과, CPT는 롤아웃 예산과 모델 규모 전반에 걸쳐 강력한 기준선 대비 더 우수한 정확도-지연 시간 파레토 전선을 구축함으로써, 효율적인 병렬 TTS를 위한 효과적인 방향으로서 탐색 시점의 협력의 가치를 입증한다.
English
Test-Time Scaling (TTS) enhances the reasoning capabilities of large language models by allocating additional inference compute to explore the solution space. However, existing parallel TTS methods typically keep branches isolated during search: intermediate discoveries remain branch-private and cannot guide other branches in time. This information isolation causes substantial redundant exploration, as branches repeatedly rediscover information already found elsewhere and require more search steps to collect complete decision information needed to reach correct answers. To bridge this gap, we propose Collaborative Parallel Thinking (CPT), a training-free inference framework that enables search-time information sharing across parallel branches. CPT extracts compact intermediate information from ongoing branches, maintains a deduplicated query-level information pool, and broadcasts pool entries through the input context, allowing each branch in subsequent search steps to reuse discoveries made by other branches rather than rediscover the same information. Empirically, experiments on HMMT and AIME benchmarks show that CPT establishes a stronger accuracy--latency Pareto frontier than strong baselines across rollout budgets and model scales, highlighting search-time collaboration as an effective direction for efficient parallel TTS.