ChatPaper.aiChatPaper

Parallel-Probe: К эффективному параллельному мышлению с помощью двумерного зондирования

Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

February 3, 2026
Авторы: Tong Zheng, Chengsong Huang, Runpeng Dai, Yun He, Rui Liu, Xin Ni, Huiwen Bao, Kaishen Wang, Hongtu Zhu, Jiaxin Huang, Furong Huang, Heng Huang
cs.AI

Аннотация

Параллельное мышление стало перспективной парадигмой для рассуждений, однако оно накладывает значительные вычислительные нагрузки. Существующие методы повышения эффективности в основном опираются на локальные сигналы в рамках отдельных траекторий и не имеют принципиальных механизмов для использования глобальной динамики между параллельными ветвями. Мы представляем 2D-зондирование — интерфейс, который раскрывает динамику ширины-глубины параллельного мышления за счет периодического получения промежуточных ответов от всех ветвей. Наш анализ выявляет три ключевых наблюдения: немонотонное масштабирование при распределении между шириной и глубиной, неоднородную длину ветвей рассуждения и раннюю стабилизацию глобального консенсуса. Руководствуясь этими наблюдениями, мы представляем Parallel-Probe, беспараметричный контроллер, предназначенный для оптимизации параллельного мышления в режиме онлайн. Parallel-Probe использует раннюю остановку на основе консенсуса для регулирования глубины рассуждений и обрезку ветвей на основе отклонений для динамической настройки ширины. Многочисленные эксперименты на трех наборах данных и с несколькими моделями демонстрируют, что Parallel-Probe устанавливает превосходную границу Парето для масштабирования во время тестирования. По сравнению со стандартным мажоритарным голосованием, метод сокращает количество последовательных токенов до 35,8% и общую стоимость токенов более чем на 25,8%, сохраняя при этом конкурентоспособную точность.
English
Parallel thinking has emerged as a promising paradigm for reasoning, yet it imposes significant computational burdens. Existing efficiency methods primarily rely on local, per-trajectory signals and lack principled mechanisms to exploit global dynamics across parallel branches. We introduce 2D probing, an interface that exposes the width-depth dynamics of parallel thinking by periodically eliciting intermediate answers from all branches. Our analysis reveals three key insights: non-monotonic scaling across width-depth allocations, heterogeneous reasoning branch lengths, and early stabilization of global consensus. Guided by these insights, we introduce Parallel-Probe, a training-free controller designed to optimize online parallel thinking. Parallel-Probe employs consensus-based early stopping to regulate reasoning depth and deviation-based branch pruning to dynamically adjust width. Extensive experiments across three benchmarks and multiple models demonstrate that Parallel-Probe establishes a superior Pareto frontier for test-time scaling. Compared to standard majority voting, it reduces sequential tokens by up to 35.8% and total token cost by over 25.8% while maintaining competitive accuracy.
PDF212February 5, 2026