Pensamiento Grupal: Múltiples Agentes de Razonamiento Concurrente Colaborando a Nivel de Granularidad de Tokens
Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity
May 16, 2025
Autores: Chan-Jan Hsu, Davide Buffelli, Jamie McGowan, Feng-Ting Liao, Yi-Chang Chen, Sattar Vakili, Da-shan Shiu
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado el poder del razonamiento a través de cadenas de pensamiento autogeneradas. Múltiples agentes de razonamiento pueden colaborar para elevar la calidad del razonamiento conjunto por encima de los resultados individuales. Sin embargo, estos agentes suelen interactuar de manera secuencial, intercambiando mayor latencia por una mejora en la calidad. En este artículo, proponemos Group Think: un único LLM que actúa como múltiples agentes de razonamiento concurrentes, o pensadores. Con visibilidad compartida del progreso parcial de generación de cada uno, Group Think introduce un nuevo paradigma de razonamiento concurrente en el que múltiples trayectorias de razonamiento se adaptan dinámicamente entre sí a nivel de tokens. Por ejemplo, un hilo de razonamiento puede cambiar su generación a mitad de frase al detectar que otro hilo está mejor posicionado para continuar. Esta colaboración detallada a nivel de token permite a Group Think reducir el razonamiento redundante y mejorar la calidad, al mismo tiempo que logra una latencia significativamente menor. Además, su naturaleza concurrente permite un uso eficiente de los recursos computacionales inactivos, lo que lo hace especialmente adecuado para la inferencia en el edge, donde tamaños de lote muy pequeños suelen subutilizar las GPUs locales. Proporcionamos una modificación simple y generalizable que permite a cualquier LLM existente realizar Group Think en una GPU local. También presentamos una estrategia de evaluación para comparar la latencia de razonamiento y demostramos empíricamente mejoras en la latencia utilizando LLMs de código abierto que no fueron entrenados explícitamente para Group Think. Esperamos que este trabajo allane el camino para que futuros LLMs exhiban un comportamiento colaborativo más sofisticado y eficiente, permitiendo una generación de mayor calidad.
English
Recent advances in large language models (LLMs) have demonstrated the power
of reasoning through self-generated chains of thought. Multiple reasoning
agents can collaborate to raise joint reasoning quality above individual
outcomes. However, such agents typically interact in a turn-based manner,
trading increased latency for improved quality. In this paper, we propose Group
Think--a single LLM that acts as multiple concurrent reasoning agents, or
thinkers. With shared visibility into each other's partial generation progress,
Group Think introduces a new concurrent-reasoning paradigm in which multiple
reasoning trajectories adapt dynamically to one another at the token level. For
example, a reasoning thread may shift its generation mid-sentence upon
detecting that another thread is better positioned to continue. This
fine-grained, token-level collaboration enables Group Think to reduce redundant
reasoning and improve quality while achieving significantly lower latency.
Moreover, its concurrent nature allows for efficient utilization of idle
computational resources, making it especially suitable for edge inference,
where very small batch size often underutilizes local~GPUs. We give a simple
and generalizable modification that enables any existing LLM to perform Group
Think on a local GPU. We also present an evaluation strategy to benchmark
reasoning latency and empirically demonstrate latency improvements using
open-source LLMs that were not explicitly trained for Group Think. We hope this
work paves the way for future LLMs to exhibit more sophisticated and more
efficient collaborative behavior for higher quality generation.Summary
AI-Generated Summary