Modulare Entwicklung kooperativer verkörperter Agenten mit großen Sprachmodellen
Building Cooperative Embodied Agents Modularly with Large Language Models
July 5, 2023
Autoren: Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B. Tenenbaum, Tianmin Shu, Chuang Gan
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben beeindruckende Planungsfähigkeiten in Einzelagenten-Umgebungen über verschiedene Domänen hinweg gezeigt. Ihre Fähigkeit zur Planung und Kommunikation in der Multi-Agenten-Kooperation bleibt jedoch unklar, obwohl dies entscheidende Fähigkeiten für intelligente verkörperte Agenten sind. In diesem Artikel präsentieren wir ein neuartiges Framework, das LLMs für die Multi-Agenten-Kooperation nutzt und in verschiedenen verkörperten Umgebungen testet. Unser Framework ermöglicht es verkörperten Agenten, zu planen, zu kommunizieren und mit anderen verkörperten Agenten oder Menschen zusammenzuarbeiten, um langfristige Aufgaben effizient zu bewältigen. Wir zeigen, dass aktuelle LLMs wie GPT-4 starke planungsbasierte Methoden übertreffen und mit unserem Framework eine emergente effektive Kommunikation zeigen können, ohne dass Feinabstimmung oder Few-Shot-Prompting erforderlich ist. Wir stellen außerdem fest, dass LLM-basierte Agenten, die in natürlicher Sprache kommunizieren, mehr Vertrauen gewinnen und effektiver mit Menschen zusammenarbeiten können. Unsere Forschung unterstreicht das Potenzial von LLMs für verkörperte KI und legt die Grundlage für zukünftige Forschungen in der Multi-Agenten-Kooperation. Videos sind auf der Projektwebsite https://vis-www.cs.umass.edu/Co-LLM-Agents/ zu finden.
English
Large Language Models (LLMs) have demonstrated impressive planning abilities
in single-agent embodied tasks across various domains. However, their capacity
for planning and communication in multi-agent cooperation remains unclear, even
though these are crucial skills for intelligent embodied agents. In this paper,
we present a novel framework that utilizes LLMs for multi-agent cooperation and
tests it in various embodied environments. Our framework enables embodied
agents to plan, communicate, and cooperate with other embodied agents or humans
to accomplish long-horizon tasks efficiently. We demonstrate that recent LLMs,
such as GPT-4, can surpass strong planning-based methods and exhibit emergent
effective communication using our framework without requiring fine-tuning or
few-shot prompting. We also discover that LLM-based agents that communicate in
natural language can earn more trust and cooperate more effectively with
humans. Our research underscores the potential of LLMs for embodied AI and lays
the foundation for future research in multi-agent cooperation. Videos can be
found on the project website https://vis-www.cs.umass.edu/Co-LLM-Agents/.