ChatPaper.aiChatPaper

Parallel-Probe: Op Weg naar Efficiënt Parallel Denken via 2D-Peiling

Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

February 3, 2026
Auteurs: Tong Zheng, Chengsong Huang, Runpeng Dai, Yun He, Rui Liu, Xin Ni, Huiwen Bao, Kaishen Wang, Hongtu Zhu, Jiaxin Huang, Furong Huang, Heng Huang
cs.AI

Samenvatting

Parallel denken is opgekomen als een veelbelovend paradigma voor redeneren, maar legt aanzienlijke computationele lasten op. Bestaande efficiëntiemethoden zijn voornamelijk gebaseerd op lokale, per-traject signalen en ontberen principiële mechanismen om globale dynamiek tussen parallelle takken te benutten. Wij introduceren 2D-peiling, een interface die de breedte-diepte dynamiek van parallel denken blootlegt door periodiek tussenantwoorden van alle takken op te vragen. Onze analyse onthult drie belangrijke inzichten: niet-monotone schaling over breedte-diepte allocaties, heterogene redeneerlengtes van takken, en vroege stabilisatie van globaal consensus. Geleid door deze inzichten introduceren wij Parallel-Probe, een trainingsvrije controller ontworpen om online parallel denken te optimaliseren. Parallel-Probe gebruikt consensus-gebaseerd vroegtijdig stoppen om de redeneerdiepte te reguleren en deviatie-gebaseerd takken snoeien om de breedte dynamisch aan te passen. Uitgebreide experimenten over drie benchmarks en meerdere modellen tonen aan dat Parallel-Probe een superieur Pareto-frontier vestigt voor testtijd-schaling. Vergeleken met standaard meerderheidsstemmen reduceert het sequentiële tokens met tot 35,8% en de totale tokenkost met meer dan 25,8% terwijl het competitieve nauwkeurigheid behoudt.
English
Parallel thinking has emerged as a promising paradigm for reasoning, yet it imposes significant computational burdens. Existing efficiency methods primarily rely on local, per-trajectory signals and lack principled mechanisms to exploit global dynamics across parallel branches. We introduce 2D probing, an interface that exposes the width-depth dynamics of parallel thinking by periodically eliciting intermediate answers from all branches. Our analysis reveals three key insights: non-monotonic scaling across width-depth allocations, heterogeneous reasoning branch lengths, and early stabilization of global consensus. Guided by these insights, we introduce Parallel-Probe, a training-free controller designed to optimize online parallel thinking. Parallel-Probe employs consensus-based early stopping to regulate reasoning depth and deviation-based branch pruning to dynamically adjust width. Extensive experiments across three benchmarks and multiple models demonstrate that Parallel-Probe establishes a superior Pareto frontier for test-time scaling. Compared to standard majority voting, it reduces sequential tokens by up to 35.8% and total token cost by over 25.8% while maintaining competitive accuracy.
PDF244February 8, 2026