Parallel-Probe: Verso un Pensiero Parallelo Efficiente Tramite Sondaggio Bidimensionale

Abstract

Il pensiero parallelo è emerso come un paradigma promettente per il ragionamento, ma impone oneri computazionali significativi. I metodi di efficienza esistenti si basano principalmente su segnali locali per singola traiettoria e mancano di meccanismi principiati per sfruttare le dinamiche globali tra i rami paralleli. Introduciamo il *2D probing*, un'interfaccia che espone le dinamiche larghezza-profondità del pensiero parallelo sollecitando periodicamente risposte intermedie da tutti i rami. La nostra analisi rivela tre intuizioni chiave: una scalabilità non monotona tra le allocazioni di larghezza e profondità, lunghezze eterogenee dei rami di ragionamento e una stabilizzazione precoce del consenso globale. Guidati da queste intuizioni, introduciamo *Parallel-Probe*, un controllore senza addestramento progettato per ottimizzare online il pensiero parallelo. Parallel-Probe utilizza un arresto anticipato basato sul consenso per regolare la profondità di ragionamento e una potatura dei rami basata sulla deviazione per aggiustare dinamicamente la larghezza. Esperimenti estesi su tre benchmark e modelli multipli dimostrano che Parallel-Probe stabilisce una frontiera di Pareto superiore per la scalabilità a tempo di test. Rispetto al voto a maggioranza standard, riduce i token sequenziali fino al 35,8% e il costo totale dei token di oltre il 25,8%, mantenendo un'accuratezza competitiva.

English

Parallel thinking has emerged as a promising paradigm for reasoning, yet it imposes significant computational burdens. Existing efficiency methods primarily rely on local, per-trajectory signals and lack principled mechanisms to exploit global dynamics across parallel branches. We introduce 2D probing, an interface that exposes the width-depth dynamics of parallel thinking by periodically eliciting intermediate answers from all branches. Our analysis reveals three key insights: non-monotonic scaling across width-depth allocations, heterogeneous reasoning branch lengths, and early stabilization of global consensus. Guided by these insights, we introduce Parallel-Probe, a training-free controller designed to optimize online parallel thinking. Parallel-Probe employs consensus-based early stopping to regulate reasoning depth and deviation-based branch pruning to dynamically adjust width. Extensive experiments across three benchmarks and multiple models demonstrate that Parallel-Probe establishes a superior Pareto frontier for test-time scaling. Compared to standard majority voting, it reduces sequential tokens by up to 35.8% and total token cost by over 25.8% while maintaining competitive accuracy.

Parallel-Probe: Verso un Pensiero Parallelo Efficiente Tramite Sondaggio Bidimensionale

Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

Abstract

Support