대형 언어 모델을 활용한 모듈식 협업형 구현 에이전트 구축
Building Cooperative Embodied Agents Modularly with Large Language Models
July 5, 2023
저자: Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B. Tenenbaum, Tianmin Shu, Chuang Gan
cs.AI
초록
대규모 언어 모델(LLMs)은 다양한 도메인에서 단일 에이전트의 구체화된 작업에 대한 인상적인 계획 능력을 보여주었습니다. 그러나 다중 에이전트 협업에서의 계획 및 의사소통 능력은 여전히 불분명하며, 이는 지능형 구체화 에이전트에게 중요한 기술입니다. 본 논문에서는 LLMs를 활용한 다중 에이전트 협업을 위한 새로운 프레임워크를 제시하고 이를 다양한 구체화된 환경에서 테스트합니다. 우리의 프레임워크는 구체화된 에이전트가 다른 구체화된 에이전트 또는 인간과 계획하고, 의사소통하며, 협력하여 장기적인 작업을 효율적으로 수행할 수 있도록 합니다. 최근의 LLMs, 예를 들어 GPT-4가 강력한 계획 기반 방법을 능가하고, 미세 조정이나 소수 샷 프롬프팅 없이도 우리의 프레임워크를 사용하여 효과적인 의사소통을 보여줄 수 있음을 입증합니다. 또한 자연어로 의사소통하는 LLM 기반 에이전트가 인간과 더 많은 신뢰를 얻고 더 효과적으로 협력할 수 있음을 발견했습니다. 우리의 연구는 구체화된 AI를 위한 LLMs의 잠재력을 강조하며, 다중 에이전트 협업에 대한 미래 연구의 기초를 마련합니다. 비디오는 프로젝트 웹사이트 https://vis-www.cs.umass.edu/Co-LLM-Agents/에서 확인할 수 있습니다.
English
Large Language Models (LLMs) have demonstrated impressive planning abilities
in single-agent embodied tasks across various domains. However, their capacity
for planning and communication in multi-agent cooperation remains unclear, even
though these are crucial skills for intelligent embodied agents. In this paper,
we present a novel framework that utilizes LLMs for multi-agent cooperation and
tests it in various embodied environments. Our framework enables embodied
agents to plan, communicate, and cooperate with other embodied agents or humans
to accomplish long-horizon tasks efficiently. We demonstrate that recent LLMs,
such as GPT-4, can surpass strong planning-based methods and exhibit emergent
effective communication using our framework without requiring fine-tuning or
few-shot prompting. We also discover that LLM-based agents that communicate in
natural language can earn more trust and cooperate more effectively with
humans. Our research underscores the potential of LLMs for embodied AI and lays
the foundation for future research in multi-agent cooperation. Videos can be
found on the project website https://vis-www.cs.umass.edu/Co-LLM-Agents/.