Partager plus, chercher moins : Pensée parallèle collaborative pour une mise à l'échelle efficace en temps de test

Résumé

La mise à l'échelle au moment du test (TTS) améliore les capacités de raisonnement des grands modèles de langage en allouant des ressources de calcul d'inférence supplémentaires pour explorer l'espace des solutions. Cependant, les méthodes TTS parallèles existantes maintiennent généralement les branches isolées pendant la recherche : les découvertes intermédiaires restent propres à chaque branche et ne peuvent pas guider les autres branches en temps réel. Cet isolement informationnel entraîne une exploration redondante substantielle, car les branches rediscovernt de manière répétée des informations déjà trouvées ailleurs et nécessitent davantage d'étapes de recherche pour collecter les informations décisionnelles complètes nécessaires à l'obtention de réponses correctes. Pour combler cette lacune, nous proposons la Pensée Parallèle Collaborative (CPT), un cadre d'inférence sans entraînement qui permet un partage d'informations en cours de recherche entre branches parallèles. La CPT extrait des informations intermédiaires compactes des branches en cours, maintient un pool d'informations au niveau de la requête, dédupliqué, et diffuse les entrées de ce pool à travers le contexte d'entrée, permettant à chaque branche, lors des étapes de recherche ultérieures, de réutiliser les découvertes faites par d'autres branches plutôt que de redécouvrir les mêmes informations. Empiriquement, les expériences sur les benchmarks HMMT et AIME montrent que la CPT établit une frontière de Pareto précision-latence plus forte que les bases de référence solides, sur différents budgets de déploiement et échelles de modèles, soulignant que la collaboration en cours de recherche constitue une direction efficace pour une TTS parallèle efficiente.

English

Test-Time Scaling (TTS) enhances the reasoning capabilities of large language models by allocating additional inference compute to explore the solution space. However, existing parallel TTS methods typically keep branches isolated during search: intermediate discoveries remain branch-private and cannot guide other branches in time. This information isolation causes substantial redundant exploration, as branches repeatedly rediscover information already found elsewhere and require more search steps to collect complete decision information needed to reach correct answers. To bridge this gap, we propose Collaborative Parallel Thinking (CPT), a training-free inference framework that enables search-time information sharing across parallel branches. CPT extracts compact intermediate information from ongoing branches, maintains a deduplicated query-level information pool, and broadcasts pool entries through the input context, allowing each branch in subsequent search steps to reuse discoveries made by other branches rather than rediscover the same information. Empirically, experiments on HMMT and AIME benchmarks show that CPT establishes a stronger accuracy--latency Pareto frontier than strong baselines across rollout budgets and model scales, highlighting search-time collaboration as an effective direction for efficient parallel TTS.