Deel Meer, Zoek Minder: Gezamenlijk Parallel Denken voor Efficiënte Testtijd-Schaling

Samenvatting

Test-Time Scaling (TTS) verbetert de redeneercapaciteiten van grote taalmodellen door extra rekenkracht voor inferentie toe te wijzen om de oplossingsruimte te verkennen. Echter, bestaande parallelle TTS-methoden houden takken doorgaans geïsoleerd tijdens het zoeken: tussentijdse ontdekkingen blijven tak-privé en kunnen andere takken niet tijdig sturen. Deze informatie-isolatie leidt tot aanzienlijke redundante verkenning, omdat takken herhaaldelijk informatie herontdekken die elders al is gevonden en meer zoekstappen nodig hebben om de volledige beslissingsinformatie te verzamelen die nodig is om tot correcte antwoorden te komen. Om deze kloof te overbruggen, stellen we Collaborative Parallel Thinking (CPT) voor, een trainingsvrij inferentieraamwerk dat het delen van informatie tijdens het zoeken over parallelle takken mogelijk maakt. CPT extraheert compacte tussentijdse informatie uit lopende takken, onderhoudt een gededupliceerde query-level informatiepool en verspreidt poolitems via de invoercontext, waardoor elke tak in volgende zoekstappen ontdekkingen van andere takken kan hergebruiken in plaats van dezelfde informatie opnieuw te ontdekken. Empirisch tonen experimenten op HMMT- en AIME-benchmarks aan dat CPT een sterker nauwkeurigheid-latentie Pareto-frontier vestigt dan sterke baselines over rollout-budgetten en modelschalen heen, wat samenwerking tijdens het zoeken benadrukt als een effectieve richting voor efficiënte parallelle TTS.

English

Test-Time Scaling (TTS) enhances the reasoning capabilities of large language models by allocating additional inference compute to explore the solution space. However, existing parallel TTS methods typically keep branches isolated during search: intermediate discoveries remain branch-private and cannot guide other branches in time. This information isolation causes substantial redundant exploration, as branches repeatedly rediscover information already found elsewhere and require more search steps to collect complete decision information needed to reach correct answers. To bridge this gap, we propose Collaborative Parallel Thinking (CPT), a training-free inference framework that enables search-time information sharing across parallel branches. CPT extracts compact intermediate information from ongoing branches, maintains a deduplicated query-level information pool, and broadcasts pool entries through the input context, allowing each branch in subsequent search steps to reuse discoveries made by other branches rather than rediscover the same information. Empirically, experiments on HMMT and AIME benchmarks show that CPT establishes a stronger accuracy--latency Pareto frontier than strong baselines across rollout budgets and model scales, highlighting search-time collaboration as an effective direction for efficient parallel TTS.