Compartilhe Mais, Pesquise Menos: Pensamento Paralelo Colaborativo para Escalonamento Eficiente em Tempo de Teste

Resumo

O Test-Time Scaling (TTS) aprimora as capacidades de raciocínio de grandes modelos de linguagem ao alocar poder computacional de inferência adicional para explorar o espaço de soluções. No entanto, os métodos paralelos de TTS existentes geralmente mantêm as ramificações isoladas durante a busca: descobertas intermediárias permanecem privadas da ramificação e não podem orientar outras ramificações a tempo. Esse isolamento de informações causa uma exploração substancialmente redundante, pois as ramificações redescobrem repetidamente informações já encontradas em outro lugar e exigem mais etapas de busca para coletar informações completas de decisão necessárias para chegar a respostas corretas. Para preencher essa lacuna, propomos o Pensamento Paralelo Colaborativo (CPT), uma estrutura de inferência livre de treinamento que permite o compartilhamento de informações em tempo de busca entre ramificações paralelas. O CPT extrai informações intermediárias compactas das ramificações em andamento, mantém um pool de informações em nível de consulta com deduplicação e transmite as entradas do pool por meio do contexto de entrada, permitindo que cada ramificação em etapas subsequentes de busca reutilize descobertas feitas por outras ramificações em vez de redescobrir as mesmas informações. Empiricamente, experimentos nos benchmarks HMMT e AIME mostram que o CPT estabelece uma fronteira de Pareto entre precisão e latência mais forte do que linhas de base robustas em diferentes orçamentos de rollout e escalas de modelo, destacando a colaboração em tempo de busca como uma direção eficaz para um TTS paralelo eficiente.

English

Test-Time Scaling (TTS) enhances the reasoning capabilities of large language models by allocating additional inference compute to explore the solution space. However, existing parallel TTS methods typically keep branches isolated during search: intermediate discoveries remain branch-private and cannot guide other branches in time. This information isolation causes substantial redundant exploration, as branches repeatedly rediscover information already found elsewhere and require more search steps to collect complete decision information needed to reach correct answers. To bridge this gap, we propose Collaborative Parallel Thinking (CPT), a training-free inference framework that enables search-time information sharing across parallel branches. CPT extracts compact intermediate information from ongoing branches, maintains a deduplicated query-level information pool, and broadcasts pool entries through the input context, allowing each branch in subsequent search steps to reuse discoveries made by other branches rather than rediscover the same information. Empirically, experiments on HMMT and AIME benchmarks show that CPT establishes a stronger accuracy--latency Pareto frontier than strong baselines across rollout budgets and model scales, highlighting search-time collaboration as an effective direction for efficient parallel TTS.