ChatPaper.aiChatPaper

Parallel-Probe: 2D 프로빙을 통한 효율적 병렬 사고 기법

Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

February 3, 2026
저자: Tong Zheng, Chengsong Huang, Runpeng Dai, Yun He, Rui Liu, Xin Ni, Huiwen Bao, Kaishen Wang, Hongtu Zhu, Jiaxin Huang, Furong Huang, Heng Huang
cs.AI

초록

병렬 사고는 유망한 추론 패러다임으로 부상했지만, 상당한 계산 부담을 초래합니다. 기존 효율화 방법은 주로 개별 트래젝터리 수준의 지역적 신호에 의존하며, 병렬 분기 간 전역 동역학을 활용하는 체계적인 메커니즘이 부족합니다. 본 연구에서는 모든 분기에서 주기적으로 중간 답변을 수집하여 병렬 사고의 너비-깊이 동역학을 드러내는 인터페이스인 2D 프로빙을 소개합니다. 분석 결과 세 가지 핵심 통찰을 도출했습니다: 너비-깊이 할당 간 비단조적 스케일링, 이질적인 추론 분기 길이, 그리고 조기 확립되는 전역 합의입니다. 이러한 통찰을 바탕으로 온라인 병렬 사고를 최적화하는 학습 불필요 컨트롤러인 Parallel-Probe를 제안합니다. Parallel-Probe는 합의 기반 조기 중단으로 추론 깊이를 조절하고, 편차 기반 분기 가지치기로 동적으로 너비를 조정합니다. 3개 벤치마크와 다양한 모델에서의 광범위한 실험을 통해 Parallel-Probe가 테스트 시간 스케일링 측면에서 우수한 파레토 최적을 달성함을 입증했습니다. 표준 다수결 기준과 비교 시 순차 토큰을 최대 35.8%까지 감소시키고, 총 토큰 비용을 25.8% 이상 절감하면서도 경쟁력 있는 정확도를 유지했습니다.
English
Parallel thinking has emerged as a promising paradigm for reasoning, yet it imposes significant computational burdens. Existing efficiency methods primarily rely on local, per-trajectory signals and lack principled mechanisms to exploit global dynamics across parallel branches. We introduce 2D probing, an interface that exposes the width-depth dynamics of parallel thinking by periodically eliciting intermediate answers from all branches. Our analysis reveals three key insights: non-monotonic scaling across width-depth allocations, heterogeneous reasoning branch lengths, and early stabilization of global consensus. Guided by these insights, we introduce Parallel-Probe, a training-free controller designed to optimize online parallel thinking. Parallel-Probe employs consensus-based early stopping to regulate reasoning depth and deviation-based branch pruning to dynamically adjust width. Extensive experiments across three benchmarks and multiple models demonstrate that Parallel-Probe establishes a superior Pareto frontier for test-time scaling. Compared to standard majority voting, it reduces sequential tokens by up to 35.8% and total token cost by over 25.8% while maintaining competitive accuracy.
PDF212February 5, 2026