Construindo Agentes Corporificados Cooperativos de Forma Modular com Grandes Modelos de Linguagem
Building Cooperative Embodied Agents Modularly with Large Language Models
July 5, 2023
Autores: Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B. Tenenbaum, Tianmin Shu, Chuang Gan
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado habilidades impressionantes de planejamento em tarefas corporificadas de agente único em diversos domínios. No entanto, sua capacidade de planejamento e comunicação em cooperação multiagente ainda não é clara, embora essas sejam habilidades cruciais para agentes corporificados inteligentes. Neste artigo, apresentamos uma nova estrutura que utiliza LLMs para cooperação multiagente e a testa em vários ambientes corporificados. Nossa estrutura permite que agentes corporificados planejem, comuniquem e cooperem com outros agentes corporificados ou humanos para realizar tarefas de longo horizonte de forma eficiente. Demonstramos que LLMs recentes, como o GPT-4, podem superar métodos robustos baseados em planejamento e exibir comunicação eficaz emergente usando nossa estrutura, sem a necessidade de ajuste fino ou prompts de poucos exemplos. Também descobrimos que agentes baseados em LLMs que se comunicam em linguagem natural podem ganhar mais confiança e cooperar de forma mais eficaz com humanos. Nossa pesquisa destaca o potencial dos LLMs para IA corporificada e estabelece as bases para pesquisas futuras em cooperação multiagente. Vídeos podem ser encontrados no site do projeto https://vis-www.cs.umass.edu/Co-LLM-Agents/.
English
Large Language Models (LLMs) have demonstrated impressive planning abilities
in single-agent embodied tasks across various domains. However, their capacity
for planning and communication in multi-agent cooperation remains unclear, even
though these are crucial skills for intelligent embodied agents. In this paper,
we present a novel framework that utilizes LLMs for multi-agent cooperation and
tests it in various embodied environments. Our framework enables embodied
agents to plan, communicate, and cooperate with other embodied agents or humans
to accomplish long-horizon tasks efficiently. We demonstrate that recent LLMs,
such as GPT-4, can surpass strong planning-based methods and exhibit emergent
effective communication using our framework without requiring fine-tuning or
few-shot prompting. We also discover that LLM-based agents that communicate in
natural language can earn more trust and cooperate more effectively with
humans. Our research underscores the potential of LLMs for embodied AI and lays
the foundation for future research in multi-agent cooperation. Videos can be
found on the project website https://vis-www.cs.umass.edu/Co-LLM-Agents/.