ChatPaper.aiChatPaper

Paralela-Sondeo: Hacia un Pensamiento Paralelo Eficiente mediante Sondeo Bidimensional

Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

February 3, 2026
Autores: Tong Zheng, Chengsong Huang, Runpeng Dai, Yun He, Rui Liu, Xin Ni, Huiwen Bao, Kaishen Wang, Hongtu Zhu, Jiaxin Huang, Furong Huang, Heng Huang
cs.AI

Resumen

El pensamiento paralelo ha surgido como un paradigma prometedor para el razonamiento, aunque impone cargas computacionales significativas. Los métodos de eficiencia existentes se basan principalmente en señales locales por trayectoria y carecen de mecanismos fundamentados para explotar la dinámica global entre las ramas paralelas. Introducimos el sondeo bidimensional (2D probing), una interfaz que expone la dinámica de amplitud-profundidad del pensamiento paralelo mediante la obtención periódica de respuestas intermedias de todas las ramas. Nuestro análisis revela tres hallazgos clave: escalado no monótono en las asignaciones de amplitud-profundidad, longitudes heterogéneas de las ramas de razonamiento y estabilización temprana del consenso global. Guiados por estos hallazgos, presentamos Parallel-Probe, un controlador que no requiere entrenamiento y está diseñado para optimizar el pensamiento paralelo en línea. Parallel-Probe emplea una parada temprana basada en consenso para regular la profundidad del razonamiento y una poda de ramas basada en la desviación para ajustar dinámicamente la amplitud. Experimentos exhaustivos en tres benchmarks y con múltiples modelos demuestran que Parallel-Probe establece un frente de Pareto superior para el escalado en tiempo de prueba. En comparación con la votación mayoritaria estándar, reduce los tokens secuenciales hasta en un 35,8% y el coste total de tokens en más de un 25,8%, manteniendo una precisión competitiva.
English
Parallel thinking has emerged as a promising paradigm for reasoning, yet it imposes significant computational burdens. Existing efficiency methods primarily rely on local, per-trajectory signals and lack principled mechanisms to exploit global dynamics across parallel branches. We introduce 2D probing, an interface that exposes the width-depth dynamics of parallel thinking by periodically eliciting intermediate answers from all branches. Our analysis reveals three key insights: non-monotonic scaling across width-depth allocations, heterogeneous reasoning branch lengths, and early stabilization of global consensus. Guided by these insights, we introduce Parallel-Probe, a training-free controller designed to optimize online parallel thinking. Parallel-Probe employs consensus-based early stopping to regulate reasoning depth and deviation-based branch pruning to dynamically adjust width. Extensive experiments across three benchmarks and multiple models demonstrate that Parallel-Probe establishes a superior Pareto frontier for test-time scaling. Compared to standard majority voting, it reduces sequential tokens by up to 35.8% and total token cost by over 25.8% while maintaining competitive accuracy.
PDF244February 8, 2026