Créer des agents incarnés coopératifs de manière modulaire avec des modèles de langage à grande échelle

Résumé

Les modèles de langage de grande taille (LLMs) ont démontré des capacités impressionnantes en matière de planification pour des tâches incarnées mono-agent dans divers domaines. Cependant, leur aptitude à planifier et à communiquer dans le cadre d'une coopération multi-agent reste incertaine, bien que ces compétences soient cruciales pour des agents incarnés intelligents. Dans cet article, nous présentons un nouveau cadre qui utilise les LLMs pour la coopération multi-agent et le testons dans divers environnements incarnés. Notre cadre permet aux agents incarnés de planifier, de communiquer et de coopérer avec d'autres agents incarnés ou avec des humains pour accomplir efficacement des tâches à long terme. Nous démontrons que les LLMs récents, tels que GPT-4, peuvent surpasser des méthodes de planification robustes et manifester une communication émergente efficace grâce à notre cadre, sans nécessiter de réglage fin ou d'incitation en quelques exemples. Nous découvrons également que les agents basés sur les LLMs qui communiquent en langage naturel peuvent gagner davantage la confiance des humains et coopérer plus efficacement avec eux. Notre recherche souligne le potentiel des LLMs pour l'IA incarnée et pose les bases pour les futures recherches sur la coopération multi-agent. Les vidéos sont disponibles sur le site web du projet : https://vis-www.cs.umass.edu/Co-LLM-Agents/.

English

Large Language Models (LLMs) have demonstrated impressive planning abilities in single-agent embodied tasks across various domains. However, their capacity for planning and communication in multi-agent cooperation remains unclear, even though these are crucial skills for intelligent embodied agents. In this paper, we present a novel framework that utilizes LLMs for multi-agent cooperation and tests it in various embodied environments. Our framework enables embodied agents to plan, communicate, and cooperate with other embodied agents or humans to accomplish long-horizon tasks efficiently. We demonstrate that recent LLMs, such as GPT-4, can surpass strong planning-based methods and exhibit emergent effective communication using our framework without requiring fine-tuning or few-shot prompting. We also discover that LLM-based agents that communicate in natural language can earn more trust and cooperate more effectively with humans. Our research underscores the potential of LLMs for embodied AI and lays the foundation for future research in multi-agent cooperation. Videos can be found on the project website https://vis-www.cs.umass.edu/Co-LLM-Agents/.

Créer des agents incarnés coopératifs de manière modulaire avec des modèles de langage à grande échelle

Building Cooperative Embodied Agents Modularly with Large Language Models

Résumé

Support