Group Think: Agenti di Ragionamento Multipli che Collaborano con Granularità a Livello di Token

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato la potenza del ragionamento attraverso catene di pensiero auto-generate. Moltiplici agenti di ragionamento possono collaborare per elevare la qualità del ragionamento congiunto al di sopra dei risultati individuali. Tuttavia, tali agenti tipicamente interagiscono in modo alternato, scambiando una maggiore latenza con un miglioramento della qualità. In questo articolo, proponiamo Group Think—un singolo LLM che agisce come molteplici agenti di ragionamento concorrenti, o pensatori. Con una visibilità condivisa sui progressi parziali della generazione reciproca, Group Think introduce un nuovo paradigma di ragionamento concorrente in cui molteplici traiettorie di ragionamento si adattano dinamicamente l'una all'altra a livello di token. Ad esempio, un filo di ragionamento può modificare la propria generazione a metà frase rilevando che un altro filo è meglio posizionato per continuare. Questa collaborazione fine e a livello di token consente a Group Think di ridurre il ragionamento ridondante e migliorare la qualità, ottenendo al contempo una latenza significativamente inferiore. Inoltre, la sua natura concorrente permette un utilizzo efficiente delle risorse computazionali inattive, rendendolo particolarmente adatto per l'inferenza ai margini, dove dimensioni di batch molto piccole spesso sottoutilizzano le GPU locali. Proponiamo una modifica semplice e generalizzabile che consente a qualsiasi LLM esistente di eseguire Group Think su una GPU locale. Presentiamo anche una strategia di valutazione per misurare la latenza del ragionamento e dimostriamo empiricamente i miglioramenti della latenza utilizzando LLM open-source che non sono stati esplicitamente addestrati per Group Think. Speriamo che questo lavoro apra la strada a futuri LLM per esibire comportamenti collaborativi più sofisticati ed efficienti, al fine di ottenere una generazione di qualità superiore.

English

Recent advances in large language models (LLMs) have demonstrated the power of reasoning through self-generated chains of thought. Multiple reasoning agents can collaborate to raise joint reasoning quality above individual outcomes. However, such agents typically interact in a turn-based manner, trading increased latency for improved quality. In this paper, we propose Group Think--a single LLM that acts as multiple concurrent reasoning agents, or thinkers. With shared visibility into each other's partial generation progress, Group Think introduces a new concurrent-reasoning paradigm in which multiple reasoning trajectories adapt dynamically to one another at the token level. For example, a reasoning thread may shift its generation mid-sentence upon detecting that another thread is better positioned to continue. This fine-grained, token-level collaboration enables Group Think to reduce redundant reasoning and improve quality while achieving significantly lower latency. Moreover, its concurrent nature allows for efficient utilization of idle computational resources, making it especially suitable for edge inference, where very small batch size often underutilizes local~GPUs. We give a simple and generalizable modification that enables any existing LLM to perform Group Think on a local GPU. We also present an evaluation strategy to benchmark reasoning latency and empirically demonstrate latency improvements using open-source LLMs that were not explicitly trained for Group Think. We hope this work paves the way for future LLMs to exhibit more sophisticated and more efficient collaborative behavior for higher quality generation.

Group Think: Agenti di Ragionamento Multipli che Collaborano con Granularità a Livello di Token

Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity

Abstract

Support