ChatPaper.aiChatPaper

Parallel-Probe: Auf dem Weg zu effizientem parallelen Denken durch zweidimensionale Abtastung

Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

February 3, 2026
papers.authors: Tong Zheng, Chengsong Huang, Runpeng Dai, Yun He, Rui Liu, Xin Ni, Huiwen Bao, Kaishen Wang, Hongtu Zhu, Jiaxin Huang, Furong Huang, Heng Huang
cs.AI

papers.abstract

Paralleles Denken hat sich als vielversprechendes Paradigma für logisches Schließen erwiesen, verursacht jedoch erhebliche Rechenlasten. Bestehende Effizienzmethoden stützen sich primär auf lokale, pro-Trajektorie-Signale und verfügen über keine prinzipiellen Mechanismen zur Nutzung globaler Dynamiken über parallele Zweige hinweg. Wir führen 2D-Abfragen ein, eine Schnittstelle, die die Breite-Tiefe-Dynamik des parallelen Denkens offenlegt, indem periodisch Zwischenantworten aller Zweige abgerufen werden. Unsere Analyse zeigt drei zentrale Erkenntnisse: nicht-monotone Skalierung bei Breite-Tiefe-Zuteilungen, heterogene Schließlängen der Zweige und frühe Stabilisierung des globalen Konsenses. Aufbauend auf diesen Erkenntnissen präsentieren wir Parallel-Probe, einen trainierungsfreien Controller zur Online-Optimierung parallelen Denkens. Parallel-Probe nutzt konsensbasierte Frühbeendigung zur Steuerung der Schließtiefe und abweichungsbasierte Zweigausdünnung zur dynamischen Anpassung der Breite. Umfangreiche Experimente über drei Benchmarks und mehrere Modelle hinweg zeigen, dass Parallel-Probe eine überlegene Pareto-Grenze für die Skalierung zur Testzeit etabliert. Im Vergleich zum Standardverfahren der Mehrheitsentscheidung reduziert es sequenzielle Tokens um bis zu 35,8% und die Gesamttokenkosten um über 25,8% bei gleichbleibend hoher Genauigkeit.
English
Parallel thinking has emerged as a promising paradigm for reasoning, yet it imposes significant computational burdens. Existing efficiency methods primarily rely on local, per-trajectory signals and lack principled mechanisms to exploit global dynamics across parallel branches. We introduce 2D probing, an interface that exposes the width-depth dynamics of parallel thinking by periodically eliciting intermediate answers from all branches. Our analysis reveals three key insights: non-monotonic scaling across width-depth allocations, heterogeneous reasoning branch lengths, and early stabilization of global consensus. Guided by these insights, we introduce Parallel-Probe, a training-free controller designed to optimize online parallel thinking. Parallel-Probe employs consensus-based early stopping to regulate reasoning depth and deviation-based branch pruning to dynamically adjust width. Extensive experiments across three benchmarks and multiple models demonstrate that Parallel-Probe establishes a superior Pareto frontier for test-time scaling. Compared to standard majority voting, it reduces sequential tokens by up to 35.8% and total token cost by over 25.8% while maintaining competitive accuracy.
PDF212February 5, 2026