Créer des agents incarnés coopératifs de manière modulaire avec des modèles de langage à grande échelle
Building Cooperative Embodied Agents Modularly with Large Language Models
July 5, 2023
Auteurs: Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B. Tenenbaum, Tianmin Shu, Chuang Gan
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) ont démontré des capacités impressionnantes en matière de planification pour des tâches incarnées mono-agent dans divers domaines. Cependant, leur aptitude à planifier et à communiquer dans le cadre d'une coopération multi-agent reste incertaine, bien que ces compétences soient cruciales pour des agents incarnés intelligents. Dans cet article, nous présentons un nouveau cadre qui utilise les LLMs pour la coopération multi-agent et le testons dans divers environnements incarnés. Notre cadre permet aux agents incarnés de planifier, de communiquer et de coopérer avec d'autres agents incarnés ou avec des humains pour accomplir efficacement des tâches à long terme. Nous démontrons que les LLMs récents, tels que GPT-4, peuvent surpasser des méthodes de planification robustes et manifester une communication émergente efficace grâce à notre cadre, sans nécessiter de réglage fin ou d'incitation en quelques exemples. Nous découvrons également que les agents basés sur les LLMs qui communiquent en langage naturel peuvent gagner davantage la confiance des humains et coopérer plus efficacement avec eux. Notre recherche souligne le potentiel des LLMs pour l'IA incarnée et pose les bases pour les futures recherches sur la coopération multi-agent. Les vidéos sont disponibles sur le site web du projet : https://vis-www.cs.umass.edu/Co-LLM-Agents/.
English
Large Language Models (LLMs) have demonstrated impressive planning abilities
in single-agent embodied tasks across various domains. However, their capacity
for planning and communication in multi-agent cooperation remains unclear, even
though these are crucial skills for intelligent embodied agents. In this paper,
we present a novel framework that utilizes LLMs for multi-agent cooperation and
tests it in various embodied environments. Our framework enables embodied
agents to plan, communicate, and cooperate with other embodied agents or humans
to accomplish long-horizon tasks efficiently. We demonstrate that recent LLMs,
such as GPT-4, can surpass strong planning-based methods and exhibit emergent
effective communication using our framework without requiring fine-tuning or
few-shot prompting. We also discover that LLM-based agents that communicate in
natural language can earn more trust and cooperate more effectively with
humans. Our research underscores the potential of LLMs for embodied AI and lays
the foundation for future research in multi-agent cooperation. Videos can be
found on the project website https://vis-www.cs.umass.edu/Co-LLM-Agents/.