Групповое мышление: множественные параллельно работающие агенты рассуждения, взаимодействующие на уровне отдельных токенов
Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity
May 16, 2025
Авторы: Chan-Jan Hsu, Davide Buffelli, Jamie McGowan, Feng-Ting Liao, Yi-Chang Chen, Sattar Vakili, Da-shan Shiu
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) продемонстрировали силу рассуждений через самоформируемые цепочки мыслей. Несколько агентов рассуждений могут сотрудничать, чтобы повысить качество совместного анализа выше индивидуальных результатов. Однако такие агенты обычно взаимодействуют поочередно, жертвуя временем задержки ради улучшения качества. В данной работе мы предлагаем подход Group Think — единую LLM, которая действует как несколько параллельных агентов рассуждений, или "мыслителей". Благодаря общей видимости частичного прогресса генерации каждого агента, Group Think вводит новую парадигму параллельных рассуждений, в которой несколько траекторий рассуждений динамически адаптируются друг к другу на уровне токенов. Например, поток рассуждений может изменить свою генерацию в середине предложения, обнаружив, что другой поток лучше подходит для продолжения. Такое детальное взаимодействие на уровне токенов позволяет Group Think снизить избыточные рассуждения, улучшить качество и значительно сократить задержку. Более того, его параллельная природа обеспечивает эффективное использование простаивающих вычислительных ресурсов, что делает его особенно подходящим для выполнения выводов на периферийных устройствах, где очень маленький размер пакета часто приводит к неполной загрузке локальных GPU. Мы предлагаем простое и универсальное изменение, позволяющее любой существующей LLM выполнять Group Think на локальном GPU. Также мы представляем стратегию оценки для измерения задержки рассуждений и эмпирически демонстрируем улучшения задержки с использованием открытых LLM, которые не были специально обучены для Group Think. Мы надеемся, что эта работа проложит путь для будущих LLM к более сложному и эффективному совместному поведению для повышения качества генерации.
English
Recent advances in large language models (LLMs) have demonstrated the power
of reasoning through self-generated chains of thought. Multiple reasoning
agents can collaborate to raise joint reasoning quality above individual
outcomes. However, such agents typically interact in a turn-based manner,
trading increased latency for improved quality. In this paper, we propose Group
Think--a single LLM that acts as multiple concurrent reasoning agents, or
thinkers. With shared visibility into each other's partial generation progress,
Group Think introduces a new concurrent-reasoning paradigm in which multiple
reasoning trajectories adapt dynamically to one another at the token level. For
example, a reasoning thread may shift its generation mid-sentence upon
detecting that another thread is better positioned to continue. This
fine-grained, token-level collaboration enables Group Think to reduce redundant
reasoning and improve quality while achieving significantly lower latency.
Moreover, its concurrent nature allows for efficient utilization of idle
computational resources, making it especially suitable for edge inference,
where very small batch size often underutilizes local~GPUs. We give a simple
and generalizable modification that enables any existing LLM to perform Group
Think on a local GPU. We also present an evaluation strategy to benchmark
reasoning latency and empirically demonstrate latency improvements using
open-source LLMs that were not explicitly trained for Group Think. We hope this
work paves the way for future LLMs to exhibit more sophisticated and more
efficient collaborative behavior for higher quality generation.Summary
AI-Generated Summary