Groepsdenken: Meerdere gelijktijdig redenerende agents die samenwerken op het niveau van token-granulariteit
Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity
May 16, 2025
Auteurs: Chan-Jan Hsu, Davide Buffelli, Jamie McGowan, Feng-Ting Liao, Yi-Chang Chen, Sattar Vakili, Da-shan Shiu
cs.AI
Samenvatting
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben de kracht aangetoond van redeneren via zelf gegenereerde gedachteketens. Meerdere redeneeragenten kunnen samenwerken om de gezamenlijke redeneerkwaliteit boven individuele resultaten uit te tillen. Dergelijke agenten interacteren echter meestal op een beurtgebaseerde manier, waarbij ze verhoogde latentie inruilen voor verbeterde kwaliteit. In dit artikel stellen we Group Think voor—een enkel LLM dat fungeert als meerdere gelijktijdige redeneeragenten, of denkers. Met gedeelde zichtbaarheid in elkaars gedeeltelijke voortgang bij het genereren, introduceert Group Think een nieuw gelijktijdig-redeneerparadigma waarin meerdere redeneertrajecten dynamisch op elkaar inspelen op tokenniveau. Een redeneerdraad kan bijvoorbeeld halverwege een zin zijn generatie aanpassen wanneer hij detecteert dat een andere draad beter gepositioneerd is om door te gaan. Deze fijnmazige, tokenniveau-samenwerking stelt Group Think in staat om redundante redenering te verminderen en de kwaliteit te verbeteren, terwijl het aanzienlijk lagere latentie bereikt. Bovendien maakt de gelijktijdige aard ervan efficiënt gebruik van inactieve rekenbronnen mogelijk, waardoor het bijzonder geschikt is voor edge-inferentie, waar zeer kleine batchgroottes vaak lokale GPU's onderbenutten. We geven een eenvoudige en generaliseerbare aanpassing die elk bestaand LLM in staat stelt om Group Think uit te voeren op een lokale GPU. We presenteren ook een evaluatiestrategie om redeneerlatentie te benchmarken en demonstreren empirisch latentieverbeteringen met open-source LLM's die niet expliciet zijn getraind voor Group Think. We hopen dat dit werk de weg effent voor toekomstige LLM's om meer verfijnd en efficiënter samenwerkingsgedrag te vertonen voor generatie van hogere kwaliteit.
English
Recent advances in large language models (LLMs) have demonstrated the power
of reasoning through self-generated chains of thought. Multiple reasoning
agents can collaborate to raise joint reasoning quality above individual
outcomes. However, such agents typically interact in a turn-based manner,
trading increased latency for improved quality. In this paper, we propose Group
Think--a single LLM that acts as multiple concurrent reasoning agents, or
thinkers. With shared visibility into each other's partial generation progress,
Group Think introduces a new concurrent-reasoning paradigm in which multiple
reasoning trajectories adapt dynamically to one another at the token level. For
example, a reasoning thread may shift its generation mid-sentence upon
detecting that another thread is better positioned to continue. This
fine-grained, token-level collaboration enables Group Think to reduce redundant
reasoning and improve quality while achieving significantly lower latency.
Moreover, its concurrent nature allows for efficient utilization of idle
computational resources, making it especially suitable for edge inference,
where very small batch size often underutilizes local~GPUs. We give a simple
and generalizable modification that enables any existing LLM to perform Group
Think on a local GPU. We also present an evaluation strategy to benchmark
reasoning latency and empirically demonstrate latency improvements using
open-source LLMs that were not explicitly trained for Group Think. We hope this
work paves the way for future LLMs to exhibit more sophisticated and more
efficient collaborative behavior for higher quality generation.Summary
AI-Generated Summary