Compartir más, buscar menos: Pensamiento paralelo colaborativo para un escalado eficiente en tiempo de prueba

Resumen

El Escalado en Tiempo de Prueba (TTS) mejora las capacidades de razonamiento de los grandes modelos de lenguaje al asignar cómputo de inferencia adicional para explorar el espacio de soluciones. Sin embargo, los métodos TTS paralelos existentes suelen mantener las ramas aisladas durante la búsqueda: los descubrimientos intermedios permanecen privados a su rama y no pueden guiar a otras ramas a tiempo. Este aislamiento de información provoca una exploración redundante sustancial, ya que las ramas redescubren repetidamente información ya encontrada en otro lugar y requieren más pasos de búsqueda para recopilar la información de decisión completa necesaria para alcanzar respuestas correctas. Para superar esta limitación, proponemos el Pensamiento Colaborativo Paralelo (CPT), un marco de inferencia sin entrenamiento que permite compartir información durante la búsqueda entre ramas paralelas. CPT extrae información intermedia compacta de las ramas en curso, mantiene un grupo de información a nivel de consulta sin duplicados y transmite las entradas del grupo a través del contexto de entrada, permitiendo que cada rama en pasos de búsqueda posteriores reutilice los descubrimientos hechos por otras ramas en lugar de redescubrir la misma información. Empíricamente, los experimentos en los puntos de referencia HMMT y AIME muestran que CPT establece una frontera de Pareto de precisión y latencia más sólida que los puntos de referencia sólidos en todos los presupuestos de despliegue y escalas de modelo, destacando la colaboración durante la búsqueda como una dirección efectiva para el TTS paralelo eficiente.

English

Test-Time Scaling (TTS) enhances the reasoning capabilities of large language models by allocating additional inference compute to explore the solution space. However, existing parallel TTS methods typically keep branches isolated during search: intermediate discoveries remain branch-private and cannot guide other branches in time. This information isolation causes substantial redundant exploration, as branches repeatedly rediscover information already found elsewhere and require more search steps to collect complete decision information needed to reach correct answers. To bridge this gap, we propose Collaborative Parallel Thinking (CPT), a training-free inference framework that enables search-time information sharing across parallel branches. CPT extracts compact intermediate information from ongoing branches, maintains a deduplicated query-level information pool, and broadcasts pool entries through the input context, allowing each branch in subsequent search steps to reuse discoveries made by other branches rather than rediscover the same information. Empirically, experiments on HMMT and AIME benchmarks show that CPT establishes a stronger accuracy--latency Pareto frontier than strong baselines across rollout budgets and model scales, highlighting search-time collaboration as an effective direction for efficient parallel TTS.