MindAgent: 게임 상호작용의 창발적 구현
MindAgent: Emergent Gaming Interaction
September 18, 2023
저자: Ran Gong, Qiuyuan Huang, Xiaojian Ma, Hoi Vo, Zane Durante, Yusuke Noda, Zilong Zheng, Song-Chun Zhu, Demetri Terzopoulos, Li Fei-Fei, Jianfeng Gao
cs.AI
초록
대형 언어 모델(LLM)은 다중 에이전트 시스템에서 복잡한 스케줄링을 수행하고, 이러한 에이전트들을 조율하여 광범위한 협업이 필요한 정교한 작업을 완수할 수 있는 능력을 가지고 있습니다. 그러나 수많은 게임 프레임워크가 도입되었음에도 불구하고, 커뮤니티는 LLM과 인간-NPC 협업을 모두 포괄하는 일반적인 다중 에이전트 협업 인프라를 구축하기 위한 충분한 벤치마크를 갖추지 못하고 있습니다. 본 연구에서는 게임 상호작용을 위한 계획 및 조율 능력의 창발적 특성을 평가하기 위해 새로운 인프라인 MindAgent를 제안합니다. 특히, 우리의 인프라는 기존 게임 프레임워크를 활용하여 i) 다중 에이전트 시스템에 대한 조율자의 이해를 요구하고, ii) 미세 조정되지 않은 적절한 지시를 통해 인간 플레이어와 협업하며, iii) 피드백이 포함된 소수 샷 프롬프트에 대한 문맥 내 학습을 확립합니다. 또한, 우리는 다중 에이전트 협업 효율성을 측정하고 동시에 게임을 플레이하는 다중 에이전트를 감독하는 새로운 게임 시나리오 및 관련 벤치마크인 CUISINEWORLD를 소개합니다. 우리는 협업 효율성을 계산하기 위한 새로운 자동 메트릭 CoS를 사용하여 포괄적인 평가를 수행합니다. 마지막으로, 우리의 인프라는 CUISINEWORLD의 맞춤형 VR 버전으로 실제 게임 시나리오에 배포될 수 있으며, 기존의 더 넓은 Minecraft 게임 도메인에 적용될 수 있습니다. 우리는 LLM에 대한 연구 결과와 일반적인 목적의 스케줄링 및 조율을 위한 새로운 인프라가 대규모 언어 코퍼스로부터 학습함으로써 이러한 기술을 획득할 수 있는 방법에 대한 통찰을 제공할 수 있기를 바랍니다.
English
Large Language Models (LLMs) have the capacity of performing complex
scheduling in a multi-agent system and can coordinate these agents into
completing sophisticated tasks that require extensive collaboration. However,
despite the introduction of numerous gaming frameworks, the community has
insufficient benchmarks towards building general multi-agents collaboration
infrastructure that encompass both LLM and human-NPCs collaborations. In this
work, we propose a novel infrastructure - MindAgent - to evaluate planning and
coordination emergent capabilities for gaming interaction. In particular, our
infrastructure leverages existing gaming framework, to i) require understanding
of the coordinator for a multi-agent system, ii) collaborate with human players
via un-finetuned proper instructions, and iii) establish an in-context learning
on few-shot prompt with feedback. Furthermore, we introduce CUISINEWORLD, a new
gaming scenario and related benchmark that dispatch a multi-agent collaboration
efficiency and supervise multiple agents playing the game simultaneously. We
conduct comprehensive evaluations with new auto-metric CoS for calculating the
collaboration efficiency. Finally, our infrastructure can be deployed into
real-world gaming scenarios in a customized VR version of CUISINEWORLD and
adapted in existing broader Minecraft gaming domain. We hope our findings on
LLMs and the new infrastructure for general-purpose scheduling and coordination
can help shed light on how such skills can be obtained by learning from large
language corpora.