Mehr teilen, weniger suchen: Kollaboratives paralleles Denken für effiziente Testzeit-Skalierung

Zusammenfassung

Testzeit-Skalierung (TTS) verbessert die Reasoning-Fähigkeiten großer Sprachmodelle, indem zusätzliche Inferenzrechenleistung bereitgestellt wird, um den Lösungsraum zu erkunden. Allerdings halten bestehende parallele TTS-Methoden die Zweige während der Suche typischerweise isoliert: Zwischenerkenntnisse bleiben auf den jeweiligen Zweig beschränkt und können andere Zweige nicht rechtzeitig leiten. Diese Informationsisolation führt zu erheblicher redundanter Erkundung, da Zweige wiederholt Informationen neu entdecken, die bereits an anderen Stellen gefunden wurden, und mehr Suchschritte benötigen, um vollständige Entscheidungsinformationen zu sammeln, die für das Erreichen korrekter Antworten erforderlich sind. Um diese Lücke zu schließen, schlagen wir Kollaboratives Paralleles Denken (CPT) vor, ein trainingsfreies Inferenzframework, das den Informationsaustausch über parallele Zweige hinweg während der Suche ermöglicht. CPT extrahiert kompakte Zwischeninformationen aus aktiven Zweigen, unterhält einen deduplizierten Informationspool auf Anfrageebene und verbreitet Pooleinträge über den Eingabekontext, sodass jeder Zweig in nachfolgenden Suchschritten Entdeckungen anderer Zweige wiederverwenden kann, anstatt dieselben Informationen neu zu entdecken. Empirisch zeigen Experimente auf den HMMT- und AIME-Benchmarks, dass CPT eine stärkere Genauigkeits-Latenz-Pareto-Grenze als starke Baselines über verschiedene Rollout-Budgets und Modellskalen hinweg etabliert, was die Zusammenarbeit während der Suche als effektive Richtung für effizientes paralleles TTS hervorhebt.

English

Test-Time Scaling (TTS) enhances the reasoning capabilities of large language models by allocating additional inference compute to explore the solution space. However, existing parallel TTS methods typically keep branches isolated during search: intermediate discoveries remain branch-private and cannot guide other branches in time. This information isolation causes substantial redundant exploration, as branches repeatedly rediscover information already found elsewhere and require more search steps to collect complete decision information needed to reach correct answers. To bridge this gap, we propose Collaborative Parallel Thinking (CPT), a training-free inference framework that enables search-time information sharing across parallel branches. CPT extracts compact intermediate information from ongoing branches, maintains a deduplicated query-level information pool, and broadcasts pool entries through the input context, allowing each branch in subsequent search steps to reuse discoveries made by other branches rather than rediscover the same information. Empirically, experiments on HMMT and AIME benchmarks show that CPT establishes a stronger accuracy--latency Pareto frontier than strong baselines across rollout budgets and model scales, highlighting search-time collaboration as an effective direction for efficient parallel TTS.