Pensée de groupe : Agents de raisonnement multiples et concurrents collaborant au niveau de granularité des tokens

papers.abstract

Les récents progrès des grands modèles de langage (LLM) ont démontré la puissance du raisonnement à travers des chaînes de pensée auto-générées. Plusieurs agents de raisonnement peuvent collaborer pour élever la qualité du raisonnement conjoint au-dessus des résultats individuels. Cependant, ces agents interagissent généralement de manière séquentielle, échangeant une latence accrue contre une amélioration de la qualité. Dans cet article, nous proposons Group Think—un seul LLM qui agit comme plusieurs agents de raisonnement concurrents, ou penseurs. Avec une visibilité partagée sur l'avancement partiel de la génération de chacun, Group Think introduit un nouveau paradigme de raisonnement concurrent dans lequel plusieurs trajectoires de raisonnement s'adaptent dynamiquement les unes aux autres au niveau des tokens. Par exemple, un fil de raisonnement peut modifier sa génération en plein milieu de phrase en détectant qu'un autre fil est mieux positionné pour continuer. Cette collaboration fine au niveau des tokens permet à Group Think de réduire le raisonnement redondant et d'améliorer la qualité tout en atteignant une latence significativement plus faible. De plus, sa nature concurrente permet une utilisation efficace des ressources de calcul inactives, le rendant particulièrement adapté à l'inférence en périphérie, où de très petites tailles de lots sous-utilisent souvent les GPU locaux. Nous proposons une modification simple et généralisable qui permet à tout LLM existant de réaliser Group Think sur un GPU local. Nous présentons également une stratégie d'évaluation pour mesurer la latence du raisonnement et démontrons empiriquement des améliorations de latence en utilisant des LLM open-source qui n'ont pas été explicitement entraînés pour Group Think. Nous espérons que ce travail ouvre la voie à des LLM futurs pour manifester un comportement collaboratif plus sophistiqué et plus efficace, permettant une génération de meilleure qualité.

English

Recent advances in large language models (LLMs) have demonstrated the power of reasoning through self-generated chains of thought. Multiple reasoning agents can collaborate to raise joint reasoning quality above individual outcomes. However, such agents typically interact in a turn-based manner, trading increased latency for improved quality. In this paper, we propose Group Think--a single LLM that acts as multiple concurrent reasoning agents, or thinkers. With shared visibility into each other's partial generation progress, Group Think introduces a new concurrent-reasoning paradigm in which multiple reasoning trajectories adapt dynamically to one another at the token level. For example, a reasoning thread may shift its generation mid-sentence upon detecting that another thread is better positioned to continue. This fine-grained, token-level collaboration enables Group Think to reduce redundant reasoning and improve quality while achieving significantly lower latency. Moreover, its concurrent nature allows for efficient utilization of idle computational resources, making it especially suitable for edge inference, where very small batch size often underutilizes local~GPUs. We give a simple and generalizable modification that enables any existing LLM to perform Group Think on a local GPU. We also present an evaluation strategy to benchmark reasoning latency and empirically demonstrate latency improvements using open-source LLMs that were not explicitly trained for Group Think. We hope this work paves the way for future LLMs to exhibit more sophisticated and more efficient collaborative behavior for higher quality generation.

Pensée de groupe : Agents de raisonnement multiples et concurrents collaborant au niveau de granularité des tokens

Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity

papers.abstract

Support