Больше обмена, меньше поиска: совместное параллельное мышление для эффективного масштабирования во время тестирования

Аннотация

Масштабирование во время тестирования (Test-Time Scaling, TTS) расширяет возможности рассуждения больших языковых моделей, выделяя дополнительные вычислительные ресурсы для вывода с целью исследования пространства решений. Однако существующие параллельные методы TTS обычно сохраняют изоляцию ветвей в процессе поиска: промежуточные открытия остаются частными для каждой ветви и не могут своевременно направлять другие ветви. Такая информационная изоляция приводит к значительному избыточному исследованию, поскольку ветви многократно заново обнаруживают информацию, уже найденную в других местах, и требуют большего количества шагов поиска для сбора полной информации, необходимой для принятия правильных решений. Для устранения этого пробела мы предлагаем Совместное параллельное мышление (Collaborative Parallel Thinking, CPT) — безучебную структуру вывода, обеспечивающую обмен информацией между параллельными ветвями во время поиска. CPT извлекает компактную промежуточную информацию из текущих ветвей, поддерживает дедуплицированный пул информации на уровне запроса и транслирует записи пула через входной контекст, позволяя каждой ветви на последующих шагах поиска повторно использовать открытия, сделанные другими ветвями, вместо того чтобы заново открывать ту же информацию. Эмпирически эксперименты на тестах HMMT и AIME показывают, что CPT устанавливает более сильную границу Парето по точности и задержке, чем сильные базовые модели, при различных бюджетах развертывания и масштабах моделей, подчеркивая сотрудничество во время поиска как эффективное направление для эффективного параллельного TTS.

English

Test-Time Scaling (TTS) enhances the reasoning capabilities of large language models by allocating additional inference compute to explore the solution space. However, existing parallel TTS methods typically keep branches isolated during search: intermediate discoveries remain branch-private and cannot guide other branches in time. This information isolation causes substantial redundant exploration, as branches repeatedly rediscover information already found elsewhere and require more search steps to collect complete decision information needed to reach correct answers. To bridge this gap, we propose Collaborative Parallel Thinking (CPT), a training-free inference framework that enables search-time information sharing across parallel branches. CPT extracts compact intermediate information from ongoing branches, maintains a deduplicated query-level information pool, and broadcasts pool entries through the input context, allowing each branch in subsequent search steps to reuse discoveries made by other branches rather than rediscover the same information. Empirically, experiments on HMMT and AIME benchmarks show that CPT establishes a stronger accuracy--latency Pareto frontier than strong baselines across rollout budgets and model scales, highlighting search-time collaboration as an effective direction for efficient parallel TTS.