Pensamento em Grupo: Múltiplos Agentes de Raciocínio Concorrentes Colaborando em Nível de Granularidade de Token

Resumo

Avanços recentes em modelos de linguagem de grande escala (LLMs) demonstraram o poder do raciocínio por meio de cadeias de pensamento autogeradas. Múltiplos agentes de raciocínio podem colaborar para elevar a qualidade do raciocínio conjunto acima dos resultados individuais. No entanto, esses agentes normalmente interagem de forma alternada, trocando latência aumentada por qualidade aprimorada. Neste artigo, propomos o Group Think—um único LLM que atua como múltiplos agentes de raciocínio concorrentes, ou pensadores. Com visibilidade compartilhada do progresso parcial de geração de cada um, o Group Think introduz um novo paradigma de raciocínio concorrente no qual múltiplas trajetórias de raciocínio se adaptam dinamicamente umas às outras no nível de token. Por exemplo, um fio de raciocínio pode mudar sua geração no meio de uma frase ao detectar que outro fio está melhor posicionado para continuar. Essa colaboração refinada em nível de token permite que o Group Think reduza o raciocínio redundante e melhore a qualidade, ao mesmo tempo em que alcança uma latência significativamente menor. Além disso, sua natureza concorrente permite a utilização eficiente de recursos computacionais ociosos, tornando-o especialmente adequado para inferência em dispositivos de borda, onde lotes muito pequenos frequentemente subutilizam GPUs locais. Apresentamos uma modificação simples e generalizável que permite que qualquer LLM existente execute o Group Think em uma GPU local. Também apresentamos uma estratégia de avaliação para comparar a latência de raciocínio e demonstramos empiricamente melhorias de latência usando LLMs de código aberto que não foram explicitamente treinados para o Group Think. Esperamos que este trabalho abra caminho para que futuros LLMs exibam comportamentos colaborativos mais sofisticados e eficientes para gerações de maior qualidade.

English

Recent advances in large language models (LLMs) have demonstrated the power of reasoning through self-generated chains of thought. Multiple reasoning agents can collaborate to raise joint reasoning quality above individual outcomes. However, such agents typically interact in a turn-based manner, trading increased latency for improved quality. In this paper, we propose Group Think--a single LLM that acts as multiple concurrent reasoning agents, or thinkers. With shared visibility into each other's partial generation progress, Group Think introduces a new concurrent-reasoning paradigm in which multiple reasoning trajectories adapt dynamically to one another at the token level. For example, a reasoning thread may shift its generation mid-sentence upon detecting that another thread is better positioned to continue. This fine-grained, token-level collaboration enables Group Think to reduce redundant reasoning and improve quality while achieving significantly lower latency. Moreover, its concurrent nature allows for efficient utilization of idle computational resources, making it especially suitable for edge inference, where very small batch size often underutilizes local~GPUs. We give a simple and generalizable modification that enables any existing LLM to perform Group Think on a local GPU. We also present an evaluation strategy to benchmark reasoning latency and empirically demonstrate latency improvements using open-source LLMs that were not explicitly trained for Group Think. We hope this work paves the way for future LLMs to exhibit more sophisticated and more efficient collaborative behavior for higher quality generation.

Pensamento em Grupo: Múltiplos Agentes de Raciocínio Concorrentes Colaborando em Nível de Granularidade de Token

Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity

Resumo

Support