Gruppendenken: Mehrere gleichzeitig agierende Reasoning-Agenten, die auf Token-Ebene granular zusammenarbeiten

papers.abstract

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Stärke des Denkens durch selbstgenerierte Gedankenketten demonstriert. Mehrere Denkagenten können zusammenarbeiten, um die gemeinsame Denkqualität über individuelle Ergebnisse hinaus zu steigern. Solche Agenten interagieren jedoch typischerweise in einem wechselseitigen Modus, wobei erhöhte Latenz gegen verbesserte Qualität eingetauscht wird. In diesem Artikel schlagen wir Group Think vor – ein einzelnes LLM, das als mehrere gleichzeitige Denkagenten oder Denker agiert. Mit gemeinsamer Sichtbarkeit in den partiellen Generierungsfortschritt der anderen führt Group Think ein neues Paradigma des gleichzeitigen Denkens ein, bei dem mehrere Denkpfade dynamisch aufeinander auf Token-Ebene reagieren. Beispielsweise kann ein Denkstrang seine Generierung mitten im Satz ändern, wenn er feststellt, dass ein anderer Strang besser positioniert ist, fortzufahren. Diese fein abgestimmte, tokenbasierte Zusammenarbeit ermöglicht es Group Think, redundantes Denken zu reduzieren und die Qualität zu verbessern, während gleichzeitig die Latenz deutlich verringert wird. Darüber hinaus ermöglicht seine gleichzeitige Natur eine effiziente Nutzung von ungenutzten Rechenressourcen, was es besonders geeignet für Edge-Inferenz macht, wo sehr kleine Batch-Größen oft lokale GPUs unterauslasten. Wir geben eine einfache und verallgemeinerbare Modifikation an, die es jedem bestehenden LLM ermöglicht, Group Think auf einer lokalen GPU durchzuführen. Wir präsentieren auch eine Bewertungsstrategie, um die Denklatenz zu benchmarken, und zeigen empirisch Latenzverbesserungen mit Open-Source-LLMs, die nicht explizit für Group Think trainiert wurden. Wir hoffen, dass diese Arbeit den Weg für zukünftige LLMs ebnet, um anspruchsvolleres und effizienteres kollaboratives Verhalten für eine höhere Generierungsqualität zu zeigen.

English

Recent advances in large language models (LLMs) have demonstrated the power of reasoning through self-generated chains of thought. Multiple reasoning agents can collaborate to raise joint reasoning quality above individual outcomes. However, such agents typically interact in a turn-based manner, trading increased latency for improved quality. In this paper, we propose Group Think--a single LLM that acts as multiple concurrent reasoning agents, or thinkers. With shared visibility into each other's partial generation progress, Group Think introduces a new concurrent-reasoning paradigm in which multiple reasoning trajectories adapt dynamically to one another at the token level. For example, a reasoning thread may shift its generation mid-sentence upon detecting that another thread is better positioned to continue. This fine-grained, token-level collaboration enables Group Think to reduce redundant reasoning and improve quality while achieving significantly lower latency. Moreover, its concurrent nature allows for efficient utilization of idle computational resources, making it especially suitable for edge inference, where very small batch size often underutilizes local~GPUs. We give a simple and generalizable modification that enables any existing LLM to perform Group Think on a local GPU. We also present an evaluation strategy to benchmark reasoning latency and empirically demonstrate latency improvements using open-source LLMs that were not explicitly trained for Group Think. We hope this work paves the way for future LLMs to exhibit more sophisticated and more efficient collaborative behavior for higher quality generation.

Gruppendenken: Mehrere gleichzeitig agierende Reasoning-Agenten, die auf Token-Ebene granular zusammenarbeiten

Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity

papers.abstract

Support