Parallel-Probe: Rumos a um Pensamento Paralelo Eficiente via Sondagem Bidimensional

Resumo

O pensamento paralelo emergiu como um paradigma promissor para o raciocínio, mas impõe encargos computacionais significativos. Os métodos de eficiência existentes baseiam-se principalmente em sinais locais por trajetória e carecem de mecanismos fundamentados para explorar a dinâmica global entre ramos paralelos. Introduzimos a sondagem 2D, uma interface que expõe a dinâmica largura-profundidade do pensamento paralelo ao eliciar periodicamente respostas intermediárias de todos os ramos. Nossa análise revela três perspetivas-chave: escalabilidade não monotónica nas alocações de largura-profundidade, comprimentos heterogéneos dos ramos de raciocínio e estabilização precoce do consenso global. Guiados por essas perspetivas, introduzimos o Parallel-Probe, um controlador livre de treino concebido para otimizar o pensamento paralelo em tempo real. O Parallel-Probe emprega parada antecipada baseada em consenso para regular a profundidade do raciocínio e poda de ramos baseada em desvio para ajustar dinamicamente a largura. Experimentos extensos em três benchmarks e múltiplos modelos demonstram que o Parallel-Probe estabelece uma fronteira de Pareto superior para a escalabilidade em tempo de teste. Comparado com a votação majoritária padrão, reduz os tokens sequenciais em até 35,8% e o custo total de tokens em mais de 25,8%, mantendo uma precisão competitiva.

English

Parallel thinking has emerged as a promising paradigm for reasoning, yet it imposes significant computational burdens. Existing efficiency methods primarily rely on local, per-trajectory signals and lack principled mechanisms to exploit global dynamics across parallel branches. We introduce 2D probing, an interface that exposes the width-depth dynamics of parallel thinking by periodically eliciting intermediate answers from all branches. Our analysis reveals three key insights: non-monotonic scaling across width-depth allocations, heterogeneous reasoning branch lengths, and early stabilization of global consensus. Guided by these insights, we introduce Parallel-Probe, a training-free controller designed to optimize online parallel thinking. Parallel-Probe employs consensus-based early stopping to regulate reasoning depth and deviation-based branch pruning to dynamically adjust width. Extensive experiments across three benchmarks and multiple models demonstrate that Parallel-Probe establishes a superior Pareto frontier for test-time scaling. Compared to standard majority voting, it reduces sequential tokens by up to 35.8% and total token cost by over 25.8% while maintaining competitive accuracy.