Создание кооперативных воплощенных агентов модульным способом с использованием больших языковых моделей
Building Cooperative Embodied Agents Modularly with Large Language Models
July 5, 2023
Авторы: Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B. Tenenbaum, Tianmin Shu, Chuang Gan
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности к планированию в задачах, связанных с одиночными агентами в различных областях. Однако их способность к планированию и коммуникации в условиях многоагентного сотрудничества остается неясной, несмотря на то, что эти навыки являются ключевыми для интеллектуальных воплощенных агентов. В данной статье мы представляем новую структуру, которая использует LLM для многоагентного сотрудничества и тестирует её в различных воплощенных средах. Наша структура позволяет воплощенным агентам планировать, общаться и сотрудничать с другими воплощенными агентами или людьми для эффективного выполнения долгосрочных задач. Мы показываем, что современные LLM, такие как GPT-4, могут превосходить мощные методы, основанные на планировании, и демонстрировать эффективную коммуникацию в рамках нашей структуры без необходимости тонкой настройки или использования подсказок с несколькими примерами. Мы также обнаруживаем, что агенты на основе LLM, которые общаются на естественном языке, могут вызывать больше доверия и эффективнее сотрудничать с людьми. Наше исследование подчеркивает потенциал LLM для воплощенного ИИ и закладывает основу для будущих исследований в области многоагентного сотрудничества. Видео можно найти на сайте проекта: https://vis-www.cs.umass.edu/Co-LLM-Agents/.
English
Large Language Models (LLMs) have demonstrated impressive planning abilities
in single-agent embodied tasks across various domains. However, their capacity
for planning and communication in multi-agent cooperation remains unclear, even
though these are crucial skills for intelligent embodied agents. In this paper,
we present a novel framework that utilizes LLMs for multi-agent cooperation and
tests it in various embodied environments. Our framework enables embodied
agents to plan, communicate, and cooperate with other embodied agents or humans
to accomplish long-horizon tasks efficiently. We demonstrate that recent LLMs,
such as GPT-4, can surpass strong planning-based methods and exhibit emergent
effective communication using our framework without requiring fine-tuning or
few-shot prompting. We also discover that LLM-based agents that communicate in
natural language can earn more trust and cooperate more effectively with
humans. Our research underscores the potential of LLMs for embodied AI and lays
the foundation for future research in multi-agent cooperation. Videos can be
found on the project website https://vis-www.cs.umass.edu/Co-LLM-Agents/.