Gruppendenken: Mehrere gleichzeitig agierende Reasoning-Agenten, die auf Token-Ebene granular zusammenarbeiten
Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity
May 16, 2025
Autoren: Chan-Jan Hsu, Davide Buffelli, Jamie McGowan, Feng-Ting Liao, Yi-Chang Chen, Sattar Vakili, Da-shan Shiu
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Stärke des Denkens durch selbstgenerierte Gedankenketten demonstriert. Mehrere Denkagenten können zusammenarbeiten, um die gemeinsame Denkqualität über individuelle Ergebnisse hinaus zu steigern. Solche Agenten interagieren jedoch typischerweise in einem wechselseitigen Modus, wobei erhöhte Latenz gegen verbesserte Qualität eingetauscht wird. In diesem Artikel schlagen wir Group Think vor – ein einzelnes LLM, das als mehrere gleichzeitige Denkagenten oder Denker agiert. Mit gemeinsamer Sichtbarkeit in den partiellen Generierungsfortschritt der anderen führt Group Think ein neues Paradigma des gleichzeitigen Denkens ein, bei dem mehrere Denkpfade dynamisch aufeinander auf Token-Ebene reagieren. Beispielsweise kann ein Denkstrang seine Generierung mitten im Satz ändern, wenn er feststellt, dass ein anderer Strang besser positioniert ist, fortzufahren. Diese fein abgestimmte, tokenbasierte Zusammenarbeit ermöglicht es Group Think, redundantes Denken zu reduzieren und die Qualität zu verbessern, während gleichzeitig die Latenz deutlich verringert wird. Darüber hinaus ermöglicht seine gleichzeitige Natur eine effiziente Nutzung von ungenutzten Rechenressourcen, was es besonders geeignet für Edge-Inferenz macht, wo sehr kleine Batch-Größen oft lokale GPUs unterauslasten. Wir geben eine einfache und verallgemeinerbare Modifikation an, die es jedem bestehenden LLM ermöglicht, Group Think auf einer lokalen GPU durchzuführen. Wir präsentieren auch eine Bewertungsstrategie, um die Denklatenz zu benchmarken, und zeigen empirisch Latenzverbesserungen mit Open-Source-LLMs, die nicht explizit für Group Think trainiert wurden. Wir hoffen, dass diese Arbeit den Weg für zukünftige LLMs ebnet, um anspruchsvolleres und effizienteres kollaboratives Verhalten für eine höhere Generierungsqualität zu zeigen.
English
Recent advances in large language models (LLMs) have demonstrated the power
of reasoning through self-generated chains of thought. Multiple reasoning
agents can collaborate to raise joint reasoning quality above individual
outcomes. However, such agents typically interact in a turn-based manner,
trading increased latency for improved quality. In this paper, we propose Group
Think--a single LLM that acts as multiple concurrent reasoning agents, or
thinkers. With shared visibility into each other's partial generation progress,
Group Think introduces a new concurrent-reasoning paradigm in which multiple
reasoning trajectories adapt dynamically to one another at the token level. For
example, a reasoning thread may shift its generation mid-sentence upon
detecting that another thread is better positioned to continue. This
fine-grained, token-level collaboration enables Group Think to reduce redundant
reasoning and improve quality while achieving significantly lower latency.
Moreover, its concurrent nature allows for efficient utilization of idle
computational resources, making it especially suitable for edge inference,
where very small batch size often underutilizes local~GPUs. We give a simple
and generalizable modification that enables any existing LLM to perform Group
Think on a local GPU. We also present an evaluation strategy to benchmark
reasoning latency and empirically demonstrate latency improvements using
open-source LLMs that were not explicitly trained for Group Think. We hope this
work paves the way for future LLMs to exhibit more sophisticated and more
efficient collaborative behavior for higher quality generation.Summary
AI-Generated Summary