Construcción Modular de Agentes Embebidos Cooperativos con Modelos de Lenguaje a Gran Escala
Building Cooperative Embodied Agents Modularly with Large Language Models
July 5, 2023
Autores: Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B. Tenenbaum, Tianmin Shu, Chuang Gan
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes de planificación en tareas encarnadas de un solo agente en diversos dominios. Sin embargo, su capacidad para planificar y comunicarse en la cooperación multiagente sigue siendo poco clara, a pesar de que estas son habilidades cruciales para los agentes encarnados inteligentes. En este artículo, presentamos un marco novedoso que utiliza LLMs para la cooperación multiagente y lo probamos en diversos entornos encarnados. Nuestro marco permite a los agentes encarnados planificar, comunicarse y cooperar con otros agentes encarnados o con humanos para realizar tareas de largo alcance de manera eficiente. Demostramos que LLMs recientes, como GPT-4, pueden superar métodos basados en planificación robustos y exhibir una comunicación efectiva emergente utilizando nuestro marco sin necesidad de ajuste fino o indicaciones de pocos ejemplos. También descubrimos que los agentes basados en LLMs que se comunican en lenguaje natural pueden ganar más confianza y cooperar de manera más efectiva con los humanos. Nuestra investigación subraya el potencial de los LLMs para la IA encarnada y sienta las bases para futuras investigaciones en cooperación multiagente. Los videos pueden encontrarse en el sitio web del proyecto https://vis-www.cs.umass.edu/Co-LLM-Agents/.
English
Large Language Models (LLMs) have demonstrated impressive planning abilities
in single-agent embodied tasks across various domains. However, their capacity
for planning and communication in multi-agent cooperation remains unclear, even
though these are crucial skills for intelligent embodied agents. In this paper,
we present a novel framework that utilizes LLMs for multi-agent cooperation and
tests it in various embodied environments. Our framework enables embodied
agents to plan, communicate, and cooperate with other embodied agents or humans
to accomplish long-horizon tasks efficiently. We demonstrate that recent LLMs,
such as GPT-4, can surpass strong planning-based methods and exhibit emergent
effective communication using our framework without requiring fine-tuning or
few-shot prompting. We also discover that LLM-based agents that communicate in
natural language can earn more trust and cooperate more effectively with
humans. Our research underscores the potential of LLMs for embodied AI and lays
the foundation for future research in multi-agent cooperation. Videos can be
found on the project website https://vis-www.cs.umass.edu/Co-LLM-Agents/.