Pensée de groupe : Agents de raisonnement multiples et concurrents collaborant au niveau de granularité des tokens
Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity
May 16, 2025
Auteurs: Chan-Jan Hsu, Davide Buffelli, Jamie McGowan, Feng-Ting Liao, Yi-Chang Chen, Sattar Vakili, Da-shan Shiu
cs.AI
Résumé
Les récents progrès des grands modèles de langage (LLM) ont démontré la puissance du raisonnement à travers des chaînes de pensée auto-générées. Plusieurs agents de raisonnement peuvent collaborer pour élever la qualité du raisonnement conjoint au-dessus des résultats individuels. Cependant, ces agents interagissent généralement de manière séquentielle, échangeant une latence accrue contre une amélioration de la qualité. Dans cet article, nous proposons Group Think—un seul LLM qui agit comme plusieurs agents de raisonnement concurrents, ou penseurs. Avec une visibilité partagée sur l'avancement partiel de la génération de chacun, Group Think introduit un nouveau paradigme de raisonnement concurrent dans lequel plusieurs trajectoires de raisonnement s'adaptent dynamiquement les unes aux autres au niveau des tokens. Par exemple, un fil de raisonnement peut modifier sa génération en plein milieu de phrase en détectant qu'un autre fil est mieux positionné pour continuer. Cette collaboration fine au niveau des tokens permet à Group Think de réduire le raisonnement redondant et d'améliorer la qualité tout en atteignant une latence significativement plus faible. De plus, sa nature concurrente permet une utilisation efficace des ressources de calcul inactives, le rendant particulièrement adapté à l'inférence en périphérie, où de très petites tailles de lots sous-utilisent souvent les GPU locaux. Nous proposons une modification simple et généralisable qui permet à tout LLM existant de réaliser Group Think sur un GPU local. Nous présentons également une stratégie d'évaluation pour mesurer la latence du raisonnement et démontrons empiriquement des améliorations de latence en utilisant des LLM open-source qui n'ont pas été explicitement entraînés pour Group Think. Nous espérons que ce travail ouvre la voie à des LLM futurs pour manifester un comportement collaboratif plus sophistiqué et plus efficace, permettant une génération de meilleure qualité.
English
Recent advances in large language models (LLMs) have demonstrated the power
of reasoning through self-generated chains of thought. Multiple reasoning
agents can collaborate to raise joint reasoning quality above individual
outcomes. However, such agents typically interact in a turn-based manner,
trading increased latency for improved quality. In this paper, we propose Group
Think--a single LLM that acts as multiple concurrent reasoning agents, or
thinkers. With shared visibility into each other's partial generation progress,
Group Think introduces a new concurrent-reasoning paradigm in which multiple
reasoning trajectories adapt dynamically to one another at the token level. For
example, a reasoning thread may shift its generation mid-sentence upon
detecting that another thread is better positioned to continue. This
fine-grained, token-level collaboration enables Group Think to reduce redundant
reasoning and improve quality while achieving significantly lower latency.
Moreover, its concurrent nature allows for efficient utilization of idle
computational resources, making it especially suitable for edge inference,
where very small batch size often underutilizes local~GPUs. We give a simple
and generalizable modification that enables any existing LLM to perform Group
Think on a local GPU. We also present an evaluation strategy to benchmark
reasoning latency and empirically demonstrate latency improvements using
open-source LLMs that were not explicitly trained for Group Think. We hope this
work paves the way for future LLMs to exhibit more sophisticated and more
efficient collaborative behavior for higher quality generation.Summary
AI-Generated Summary