Fantôme dans Minecraft : Agents Polyvalents pour des Environnements Ouverts via des Modèles de Langage à Grande Échelle avec Connaissances et Mémoire Textuelles

Résumé

Le domaine captivant de Minecraft a suscité un intérêt de recherche considérable ces dernières années, servant de plateforme riche pour le développement d'agents intelligents capables de fonctionner dans des environnements en monde ouvert. Cependant, le paysage de recherche actuel se concentre principalement sur des objectifs spécifiques, tels que la tâche populaire "ObtainDiamond", et n'a pas encore démontré une généralisation efficace à un spectre plus large de tâches. De plus, le taux de succès actuel pour la tâche "ObtainDiamond" se situe autour de 20%, mettant en évidence les limites des contrôleurs basés sur l'apprentissage par renforcement (RL) utilisés dans les méthodes existantes. Pour relever ces défis, nous introduisons Ghost in the Minecraft (GITM), un nouveau cadre qui intègre des modèles de langage de grande taille (LLMs) avec des connaissances et une mémoire basées sur le texte, visant à créer des agents généralement capables (GCAs) dans Minecraft. Ces agents, équipés des capacités de logique et de bon sens des LLMs, peuvent naviguer habilement dans des environnements complexes à récompense éparse avec des interactions basées sur le texte. Nous développons un ensemble d'actions structurées et exploitons les LLMs pour générer des plans d'action que les agents peuvent exécuter. L'agent basé sur LLM qui en résulte surpasse nettement les méthodes précédentes, obtenant une amélioration remarquable de +47,5% du taux de succès sur la tâche "ObtainDiamond", démontrant une robustesse supérieure par rapport aux contrôleurs traditionnels basés sur RL. Notamment, notre agent est le premier à obtenir tous les éléments de l'arbre technologique de l'Overworld de Minecraft, démontrant ses capacités étendues. GITM n'a besoin d'aucun GPU pour l'entraînement, mais un seul nœud CPU avec 32 cœurs CPU suffit. Cette recherche montre le potentiel des LLMs dans le développement d'agents capables de gérer des tâches complexes à long terme et de s'adapter aux incertitudes dans des environnements en monde ouvert. Consultez le site web du projet à l'adresse https://github.com/OpenGVLab/GITM.

English

The captivating realm of Minecraft has attracted substantial research interest in recent years, serving as a rich platform for developing intelligent agents capable of functioning in open-world environments. However, the current research landscape predominantly focuses on specific objectives, such as the popular "ObtainDiamond" task, and has not yet shown effective generalization to a broader spectrum of tasks. Furthermore, the current leading success rate for the "ObtainDiamond" task stands at around 20%, highlighting the limitations of Reinforcement Learning (RL) based controllers used in existing methods. To tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel framework integrates Large Language Models (LLMs) with text-based knowledge and memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These agents, equipped with the logic and common sense capabilities of LLMs, can skillfully navigate complex, sparse-reward environments with text-based interactions. We develop a set of structured actions and leverage LLMs to generate action plans for the agents to execute. The resulting LLM-based agent markedly surpasses previous methods, achieving a remarkable improvement of +47.5% in success rate on the "ObtainDiamond" task, demonstrating superior robustness compared to traditional RL-based controllers. Notably, our agent is the first to procure all items in the Minecraft Overworld technology tree, demonstrating its extensive capabilities. GITM does not need any GPU for training, but a single CPU node with 32 CPU cores is enough. This research shows the potential of LLMs in developing capable agents for handling long-horizon, complex tasks and adapting to uncertainties in open-world environments. See the project website at https://github.com/OpenGVLab/GITM.

Fantôme dans Minecraft : Agents Polyvalents pour des Environnements Ouverts via des Modèles de Langage à Grande Échelle avec Connaissances et Mémoire Textuelles

Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge and Memory

Résumé

Support