Fantasma in Minecraft: Agenti Generalmente Competenti per Ambienti Open-World tramite Modelli Linguistici di Grande Scala con Conoscenza e Memoria Basate su Testo
Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge and Memory
May 25, 2023
Autori: Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai
cs.AI
Abstract
L'affascinante mondo di Minecraft ha attirato un notevole interesse di ricerca negli ultimi anni, fungendo da piattaforma ricca per lo sviluppo di agenti intelligenti in grado di operare in ambienti open-world. Tuttavia, il panorama attuale della ricerca si concentra prevalentemente su obiettivi specifici, come il popolare compito "ObtainDiamond", e non ha ancora dimostrato un'efficace generalizzazione a un più ampio spettro di attività. Inoltre, il tasso di successo attualmente più elevato per il compito "ObtainDiamond" si attesta intorno al 20%, evidenziando i limiti dei controller basati su Reinforcement Learning (RL) utilizzati nei metodi esistenti. Per affrontare queste sfide, introduciamo Ghost in the Minecraft (GITM), un nuovo framework che integra Large Language Models (LLM) con conoscenza e memoria basate su testo, con l'obiettivo di creare Agenti Generalmente Capaci (GCA) in Minecraft. Questi agenti, dotati delle capacità logiche e di senso comune degli LLM, possono navigare abilmente in ambienti complessi e a ricompensa sparsa attraverso interazioni basate su testo. Sviluppiamo un insieme di azioni strutturate e sfruttiamo gli LLM per generare piani d'azione che gli agenti possono eseguire. L'agente basato su LLM risultante supera nettamente i metodi precedenti, ottenendo un notevole miglioramento del +47,5% nel tasso di successo per il compito "ObtainDiamond", dimostrando una robustezza superiore rispetto ai tradizionali controller basati su RL. In particolare, il nostro agente è il primo a ottenere tutti gli oggetti dell'albero tecnologico del Minecraft Overworld, dimostrando le sue ampie capacità. GITM non richiede alcuna GPU per l'addestramento, ma è sufficiente un singolo nodo CPU con 32 core. Questa ricerca mostra il potenziale degli LLM nello sviluppo di agenti capaci di gestire compiti complessi a lungo termine e di adattarsi alle incertezze degli ambienti open-world. Visita il sito del progetto all'indirizzo https://github.com/OpenGVLab/GITM.
English
The captivating realm of Minecraft has attracted substantial research
interest in recent years, serving as a rich platform for developing intelligent
agents capable of functioning in open-world environments. However, the current
research landscape predominantly focuses on specific objectives, such as the
popular "ObtainDiamond" task, and has not yet shown effective generalization to
a broader spectrum of tasks. Furthermore, the current leading success rate for
the "ObtainDiamond" task stands at around 20%, highlighting the limitations of
Reinforcement Learning (RL) based controllers used in existing methods. To
tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel
framework integrates Large Language Models (LLMs) with text-based knowledge and
memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These
agents, equipped with the logic and common sense capabilities of LLMs, can
skillfully navigate complex, sparse-reward environments with text-based
interactions. We develop a set of structured actions and leverage LLMs to
generate action plans for the agents to execute. The resulting LLM-based agent
markedly surpasses previous methods, achieving a remarkable improvement of
+47.5% in success rate on the "ObtainDiamond" task, demonstrating superior
robustness compared to traditional RL-based controllers. Notably, our agent is
the first to procure all items in the Minecraft Overworld technology tree,
demonstrating its extensive capabilities. GITM does not need any GPU for
training, but a single CPU node with 32 CPU cores is enough. This research
shows the potential of LLMs in developing capable agents for handling
long-horizon, complex tasks and adapting to uncertainties in open-world
environments. See the project website at https://github.com/OpenGVLab/GITM.