MindAgent: Emergentes Spielinteraktionssystem
MindAgent: Emergent Gaming Interaction
September 18, 2023
Autoren: Ran Gong, Qiuyuan Huang, Xiaojian Ma, Hoi Vo, Zane Durante, Yusuke Noda, Zilong Zheng, Song-Chun Zhu, Demetri Terzopoulos, Li Fei-Fei, Jianfeng Gao
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) besitzen die Fähigkeit, komplexe Planungsaufgaben in einem Multi-Agenten-System durchzuführen und können diese Agenten koordinieren, um anspruchsvolle Aufgaben zu erledigen, die umfangreiche Zusammenarbeit erfordern. Trotz der Einführung zahlreicher Spiele-Frameworks fehlen der Community jedoch ausreichende Benchmarks für den Aufbau einer allgemeinen Infrastruktur zur Multi-Agenten-Kollaboration, die sowohl die Zusammenarbeit von LLMs als auch die zwischen Menschen und NPCs umfasst. In dieser Arbeit schlagen wir eine neuartige Infrastruktur vor – MindAgent –, um die emergenten Fähigkeiten zur Planung und Koordination für die Interaktion in Spielen zu bewerten. Insbesondere nutzt unsere Infrastruktur bestehende Spiele-Frameworks, um i) das Verständnis des Koordinators für ein Multi-Agenten-System zu erfordern, ii) mit menschlichen Spielern über nicht feinabgestimmte, aber geeignete Anweisungen zusammenzuarbeiten und iii) ein In-Context-Lernen mit Few-Shot-Prompts und Feedback zu etablieren. Darüber hinaus stellen wir CUISINEWORLD vor, ein neues Spielszenario und einen zugehörigen Benchmark, der die Effizienz der Multi-Agenten-Kollaboration bewertet und die gleichzeitige Steuerung mehrerer Agenten im Spiel überwacht. Wir führen umfassende Bewertungen mit einer neuen automatisierten Metrik, CoS, zur Berechnung der Kollaborationseffizienz durch. Schließlich kann unsere Infrastruktur in realen Spielszenarien eingesetzt werden, insbesondere in einer angepassten VR-Version von CUISINEWORLD, und in bestehenden, breiteren Minecraft-Spielwelten adaptiert werden. Wir hoffen, dass unsere Erkenntnisse zu LLMs und die neue Infrastruktur für allgemeine Planungs- und Koordinationsaufgaben dazu beitragen können, zu beleuchten, wie solche Fähigkeiten durch das Lernen aus großen Sprachkorpora erworben werden können.
English
Large Language Models (LLMs) have the capacity of performing complex
scheduling in a multi-agent system and can coordinate these agents into
completing sophisticated tasks that require extensive collaboration. However,
despite the introduction of numerous gaming frameworks, the community has
insufficient benchmarks towards building general multi-agents collaboration
infrastructure that encompass both LLM and human-NPCs collaborations. In this
work, we propose a novel infrastructure - MindAgent - to evaluate planning and
coordination emergent capabilities for gaming interaction. In particular, our
infrastructure leverages existing gaming framework, to i) require understanding
of the coordinator for a multi-agent system, ii) collaborate with human players
via un-finetuned proper instructions, and iii) establish an in-context learning
on few-shot prompt with feedback. Furthermore, we introduce CUISINEWORLD, a new
gaming scenario and related benchmark that dispatch a multi-agent collaboration
efficiency and supervise multiple agents playing the game simultaneously. We
conduct comprehensive evaluations with new auto-metric CoS for calculating the
collaboration efficiency. Finally, our infrastructure can be deployed into
real-world gaming scenarios in a customized VR version of CUISINEWORLD and
adapted in existing broader Minecraft gaming domain. We hope our findings on
LLMs and the new infrastructure for general-purpose scheduling and coordination
can help shed light on how such skills can be obtained by learning from large
language corpora.