Costruire Agenti Embodied Cooperativi in Modo Modulare con Modelli Linguistici di Grande Scala
Building Cooperative Embodied Agents Modularly with Large Language Models
July 5, 2023
Autori: Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B. Tenenbaum, Tianmin Shu, Chuang Gan
cs.AI
Abstract
I Large Language Model (LLM) hanno dimostrato impressionanti capacità di pianificazione in compiti embodied a singolo agente in vari domini. Tuttavia, la loro capacità di pianificazione e comunicazione nella cooperazione multi-agente rimane poco chiara, nonostante queste siano abilità cruciali per agenti embodied intelligenti. In questo articolo, presentiamo un nuovo framework che utilizza LLM per la cooperazione multi-agente e lo testa in vari ambienti embodied. Il nostro framework consente agli agenti embodied di pianificare, comunicare e cooperare con altri agenti embodied o con esseri umani per portare a termine compiti a lungo termine in modo efficiente. Dimostriamo che LLM recenti, come GPT-4, possono superare metodi di pianificazione robusti e mostrare una comunicazione efficace emergente utilizzando il nostro framework senza necessità di fine-tuning o prompt few-shot. Scopriamo inoltre che gli agenti basati su LLM che comunicano in linguaggio naturale possono guadagnare maggiore fiducia e cooperare più efficacemente con gli esseri umani. La nostra ricerca sottolinea il potenziale dei LLM per l'AI embodied e getta le basi per future ricerche sulla cooperazione multi-agente. I video sono disponibili sul sito del progetto https://vis-www.cs.umass.edu/Co-LLM-Agents/.
English
Large Language Models (LLMs) have demonstrated impressive planning abilities
in single-agent embodied tasks across various domains. However, their capacity
for planning and communication in multi-agent cooperation remains unclear, even
though these are crucial skills for intelligent embodied agents. In this paper,
we present a novel framework that utilizes LLMs for multi-agent cooperation and
tests it in various embodied environments. Our framework enables embodied
agents to plan, communicate, and cooperate with other embodied agents or humans
to accomplish long-horizon tasks efficiently. We demonstrate that recent LLMs,
such as GPT-4, can surpass strong planning-based methods and exhibit emergent
effective communication using our framework without requiring fine-tuning or
few-shot prompting. We also discover that LLM-based agents that communicate in
natural language can earn more trust and cooperate more effectively with
humans. Our research underscores the potential of LLMs for embodied AI and lays
the foundation for future research in multi-agent cooperation. Videos can be
found on the project website https://vis-www.cs.umass.edu/Co-LLM-Agents/.