MindAgent: Interacción de Juego Emergente
MindAgent: Emergent Gaming Interaction
September 18, 2023
Autores: Ran Gong, Qiuyuan Huang, Xiaojian Ma, Hoi Vo, Zane Durante, Yusuke Noda, Zilong Zheng, Song-Chun Zhu, Demetri Terzopoulos, Li Fei-Fei, Jianfeng Gao
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) tienen la capacidad de realizar planificación compleja en sistemas multiagente y pueden coordinar a estos agentes para completar tareas sofisticadas que requieren una colaboración extensa. Sin embargo, a pesar de la introducción de numerosos marcos de trabajo para juegos, la comunidad carece de puntos de referencia suficientes para construir una infraestructura general de colaboración multiagente que abarque tanto la colaboración entre LLMs como entre humanos y NPCs. En este trabajo, proponemos una infraestructura novedosa, MindAgent, para evaluar las capacidades emergentes de planificación y coordinación en interacciones de juegos. En particular, nuestra infraestructura aprovecha marcos de juego existentes para: i) requerir la comprensión del coordinador en un sistema multiagente, ii) colaborar con jugadores humanos mediante instrucciones adecuadas sin ajuste fino, y iii) establecer un aprendizaje en contexto con pocos ejemplos y retroalimentación. Además, presentamos CUISINEWORLD, un nuevo escenario de juego y un punto de referencia relacionado que evalúa la eficiencia de la colaboración multiagente y supervisa a múltiples agentes jugando simultáneamente. Realizamos evaluaciones exhaustivas con una nueva métrica automática, CoS, para calcular la eficiencia de la colaboración. Finalmente, nuestra infraestructura puede implementarse en escenarios de juego del mundo real en una versión personalizada de realidad virtual de CUISINEWORLD y adaptarse al dominio más amplio de Minecraft. Esperamos que nuestros hallazgos sobre los LLMs y la nueva infraestructura para la planificación y coordinación de propósito general puedan ayudar a esclarecer cómo estas habilidades pueden adquirirse mediante el aprendizaje a partir de grandes corpus de lenguaje.
English
Large Language Models (LLMs) have the capacity of performing complex
scheduling in a multi-agent system and can coordinate these agents into
completing sophisticated tasks that require extensive collaboration. However,
despite the introduction of numerous gaming frameworks, the community has
insufficient benchmarks towards building general multi-agents collaboration
infrastructure that encompass both LLM and human-NPCs collaborations. In this
work, we propose a novel infrastructure - MindAgent - to evaluate planning and
coordination emergent capabilities for gaming interaction. In particular, our
infrastructure leverages existing gaming framework, to i) require understanding
of the coordinator for a multi-agent system, ii) collaborate with human players
via un-finetuned proper instructions, and iii) establish an in-context learning
on few-shot prompt with feedback. Furthermore, we introduce CUISINEWORLD, a new
gaming scenario and related benchmark that dispatch a multi-agent collaboration
efficiency and supervise multiple agents playing the game simultaneously. We
conduct comprehensive evaluations with new auto-metric CoS for calculating the
collaboration efficiency. Finally, our infrastructure can be deployed into
real-world gaming scenarios in a customized VR version of CUISINEWORLD and
adapted in existing broader Minecraft gaming domain. We hope our findings on
LLMs and the new infrastructure for general-purpose scheduling and coordination
can help shed light on how such skills can be obtained by learning from large
language corpora.