ChatPaper.aiChatPaper

Fantasmas en Minecraft: Agentes Generalmente Capaces para Entornos de Mundo Abierto mediante Modelos de Lenguaje a Gran Escala con Conocimiento y Memoria Basados en Texto

Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge and Memory

May 25, 2023
Autores: Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai
cs.AI

Resumen

El fascinante mundo de Minecraft ha atraído un interés de investigación considerable en los últimos años, sirviendo como una plataforma rica para desarrollar agentes inteligentes capaces de funcionar en entornos de mundo abierto. Sin embargo, el panorama actual de la investigación se centra predominantemente en objetivos específicos, como la popular tarea "ObtainDiamond", y aún no ha demostrado una generalización efectiva hacia un espectro más amplio de tareas. Además, la tasa de éxito líder actual para la tarea "ObtainDiamond" se sitúa en torno al 20%, lo que resalta las limitaciones de los controladores basados en Aprendizaje por Refuerzo (RL) utilizados en los métodos existentes. Para abordar estos desafíos, presentamos Ghost in the Minecraft (GITM), un marco novedoso que integra Modelos de Lenguaje de Gran Escala (LLMs) con conocimiento y memoria basados en texto, con el objetivo de crear Agentes Generalmente Capaces (GCAs) en Minecraft. Estos agentes, equipados con las capacidades de lógica y sentido común de los LLMs, pueden navegar hábilmente entornos complejos y de recompensas dispersas mediante interacciones basadas en texto. Desarrollamos un conjunto de acciones estructuradas y aprovechamos los LLMs para generar planes de acción que los agentes ejecutan. El agente basado en LLM resultante supera notablemente los métodos anteriores, logrando una mejora impresionante del +47.5% en la tasa de éxito en la tarea "ObtainDiamond", demostrando una robustez superior en comparación con los controladores tradicionales basados en RL. Cabe destacar que nuestro agente es el primero en obtener todos los elementos del árbol tecnológico del Overworld de Minecraft, demostrando sus amplias capacidades. GITM no requiere ninguna GPU para el entrenamiento, sino que un solo nodo de CPU con 32 núcleos es suficiente. Esta investigación muestra el potencial de los LLMs en el desarrollo de agentes capaces para manejar tareas complejas de largo alcance y adaptarse a las incertidumbres en entornos de mundo abierto. Consulte el sitio web del proyecto en https://github.com/OpenGVLab/GITM.
English
The captivating realm of Minecraft has attracted substantial research interest in recent years, serving as a rich platform for developing intelligent agents capable of functioning in open-world environments. However, the current research landscape predominantly focuses on specific objectives, such as the popular "ObtainDiamond" task, and has not yet shown effective generalization to a broader spectrum of tasks. Furthermore, the current leading success rate for the "ObtainDiamond" task stands at around 20%, highlighting the limitations of Reinforcement Learning (RL) based controllers used in existing methods. To tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel framework integrates Large Language Models (LLMs) with text-based knowledge and memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These agents, equipped with the logic and common sense capabilities of LLMs, can skillfully navigate complex, sparse-reward environments with text-based interactions. We develop a set of structured actions and leverage LLMs to generate action plans for the agents to execute. The resulting LLM-based agent markedly surpasses previous methods, achieving a remarkable improvement of +47.5% in success rate on the "ObtainDiamond" task, demonstrating superior robustness compared to traditional RL-based controllers. Notably, our agent is the first to procure all items in the Minecraft Overworld technology tree, demonstrating its extensive capabilities. GITM does not need any GPU for training, but a single CPU node with 32 CPU cores is enough. This research shows the potential of LLMs in developing capable agents for handling long-horizon, complex tasks and adapting to uncertainties in open-world environments. See the project website at https://github.com/OpenGVLab/GITM.
PDF20December 15, 2024