Parallèle-Sonde : Vers une pensée parallèle efficace via un sondage bidimensionnel
Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing
February 3, 2026
papers.authors: Tong Zheng, Chengsong Huang, Runpeng Dai, Yun He, Rui Liu, Xin Ni, Huiwen Bao, Kaishen Wang, Hongtu Zhu, Jiaxin Huang, Furong Huang, Heng Huang
cs.AI
papers.abstract
La pensée parallèle est apparue comme un paradigme prometteur pour le raisonnement, mais elle impose des charges computationnelles significatives. Les méthodes d'efficacité existantes reposent principalement sur des signaux locaux par trajectoire et manquent de mécanismes principiés pour exploiter la dynamique globale entre les branches parallèles. Nous introduisons le sondage 2D, une interface qui expose la dynamique largeur-profondeur de la pensée parallèle en sollicitant périodiquement des réponses intermédiaires de toutes les branches. Notre analyse révèle trois insights clés : une mise à l'échelle non monotone des allocations largeur-profondeur, des longueurs de branches de raisonnement hétérogènes et une stabilisation précoce du consensus global. Guidés par ces observations, nous présentons Parallel-Probe, un contrôleur sans apprentissage conçu pour optimiser la pensée parallèle en ligne. Parallel-Probe utilise un arrêt précoce basé sur le consensus pour réguler la profondeur de raisonnement et un élagage des branches basé sur la déviation pour ajuster dynamiquement la largeur. Des expériences approfondies sur trois benchmarks et plusieurs modèles démontrent que Parallel-Probe établit une frontière de Pareto supérieure pour la mise à l'échelle en temps de test. Par rapport au vote majoritaire standard, il réduit les jetons séquentiels jusqu'à 35,8 % et le coût total en jetons de plus de 25,8 % tout en maintenant une précision compétitive.
English
Parallel thinking has emerged as a promising paradigm for reasoning, yet it imposes significant computational burdens. Existing efficiency methods primarily rely on local, per-trajectory signals and lack principled mechanisms to exploit global dynamics across parallel branches. We introduce 2D probing, an interface that exposes the width-depth dynamics of parallel thinking by periodically eliciting intermediate answers from all branches. Our analysis reveals three key insights: non-monotonic scaling across width-depth allocations, heterogeneous reasoning branch lengths, and early stabilization of global consensus. Guided by these insights, we introduce Parallel-Probe, a training-free controller designed to optimize online parallel thinking. Parallel-Probe employs consensus-based early stopping to regulate reasoning depth and deviation-based branch pruning to dynamically adjust width. Extensive experiments across three benchmarks and multiple models demonstrate that Parallel-Probe establishes a superior Pareto frontier for test-time scaling. Compared to standard majority voting, it reduces sequential tokens by up to 35.8% and total token cost by over 25.8% while maintaining competitive accuracy.