Pensamiento Grupal: Múltiples Agentes de Razonamiento Concurrente Colaborando a Nivel de Granularidad de Tokens

Resumen

Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado el poder del razonamiento a través de cadenas de pensamiento autogeneradas. Múltiples agentes de razonamiento pueden colaborar para elevar la calidad del razonamiento conjunto por encima de los resultados individuales. Sin embargo, estos agentes suelen interactuar de manera secuencial, intercambiando mayor latencia por una mejora en la calidad. En este artículo, proponemos Group Think: un único LLM que actúa como múltiples agentes de razonamiento concurrentes, o pensadores. Con visibilidad compartida del progreso parcial de generación de cada uno, Group Think introduce un nuevo paradigma de razonamiento concurrente en el que múltiples trayectorias de razonamiento se adaptan dinámicamente entre sí a nivel de tokens. Por ejemplo, un hilo de razonamiento puede cambiar su generación a mitad de frase al detectar que otro hilo está mejor posicionado para continuar. Esta colaboración detallada a nivel de token permite a Group Think reducir el razonamiento redundante y mejorar la calidad, al mismo tiempo que logra una latencia significativamente menor. Además, su naturaleza concurrente permite un uso eficiente de los recursos computacionales inactivos, lo que lo hace especialmente adecuado para la inferencia en el edge, donde tamaños de lote muy pequeños suelen subutilizar las GPUs locales. Proporcionamos una modificación simple y generalizable que permite a cualquier LLM existente realizar Group Think en una GPU local. También presentamos una estrategia de evaluación para comparar la latencia de razonamiento y demostramos empíricamente mejoras en la latencia utilizando LLMs de código abierto que no fueron entrenados explícitamente para Group Think. Esperamos que este trabajo allane el camino para que futuros LLMs exhiban un comportamiento colaborativo más sofisticado y eficiente, permitiendo una generación de mayor calidad.

English

Recent advances in large language models (LLMs) have demonstrated the power of reasoning through self-generated chains of thought. Multiple reasoning agents can collaborate to raise joint reasoning quality above individual outcomes. However, such agents typically interact in a turn-based manner, trading increased latency for improved quality. In this paper, we propose Group Think--a single LLM that acts as multiple concurrent reasoning agents, or thinkers. With shared visibility into each other's partial generation progress, Group Think introduces a new concurrent-reasoning paradigm in which multiple reasoning trajectories adapt dynamically to one another at the token level. For example, a reasoning thread may shift its generation mid-sentence upon detecting that another thread is better positioned to continue. This fine-grained, token-level collaboration enables Group Think to reduce redundant reasoning and improve quality while achieving significantly lower latency. Moreover, its concurrent nature allows for efficient utilization of idle computational resources, making it especially suitable for edge inference, where very small batch size often underutilizes local~GPUs. We give a simple and generalizable modification that enables any existing LLM to perform Group Think on a local GPU. We also present an evaluation strategy to benchmark reasoning latency and empirically demonstrate latency improvements using open-source LLMs that were not explicitly trained for Group Think. We hope this work paves the way for future LLMs to exhibit more sophisticated and more efficient collaborative behavior for higher quality generation.

Pensamiento Grupal: Múltiples Agentes de Razonamiento Concurrente Colaborando a Nivel de Granularidad de Tokens

Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity

Resumen

Support