Ghost in the Minecraft: Algemeen Capabele Agents voor Open-Wereld Omgevingen via Grote Taalmodellen met Tekstgebaseerde Kennis en Geheugen
Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge and Memory
May 25, 2023
Auteurs: Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai
cs.AI
Samenvatting
Het boeiende domein van Minecraft heeft de afgelopen jaren aanzienlijke onderzoeksinteresse gewekt, en dient als een rijk platform voor het ontwikkelen van intelligente agents die kunnen functioneren in open-wereldomgevingen. Het huidige onderzoekslandschap richt zich echter voornamelijk op specifieke doelstellingen, zoals de populaire "ObtainDiamond"-taak, en heeft nog geen effectieve generalisatie naar een breder scala aan taken laten zien. Bovendien staat het huidige toonaangevende slagingspercentage voor de "ObtainDiamond"-taak op ongeveer 20%, wat de beperkingen benadrukt van op Reinforcement Learning (RL) gebaseerde controllers die in bestaande methoden worden gebruikt. Om deze uitdagingen aan te pakken, introduceren we Ghost in the Minecraft (GITM), een nieuw framework dat Large Language Models (LLMs) integreert met tekstgebaseerde kennis en geheugen, met als doel Generally Capable Agents (GCA's) in Minecraft te creëren. Deze agents, uitgerust met de logica en gezond-verstand-capaciteiten van LLMs, kunnen behendig navigeren in complexe, spaarzaam beloonde omgevingen met tekstgebaseerde interacties. We ontwikkelen een set gestructureerde acties en benutten LLMs om actieplannen te genereren die de agents kunnen uitvoeren. De resulterende LLM-gebaseerde agent overtreft aanzienlijk eerdere methoden, met een opmerkelijke verbetering van +47,5% in slagingspercentage voor de "ObtainDiamond"-taak, wat superieure robuustheid aantoont in vergelijking met traditionele RL-gebaseerde controllers. Opmerkelijk is dat onze agent de eerste is die alle items in de Minecraft Overworld-technologieboom verkrijgt, wat zijn uitgebreide capaciteiten aantoont. GITM heeft geen GPU nodig voor training, maar een enkele CPU-node met 32 CPU-kernen is voldoende. Dit onderzoek toont het potentieel van LLMs aan in het ontwikkelen van capabele agents voor het uitvoeren van langetermijn, complexe taken en het aanpassen aan onzekerheden in open-wereldomgevingen. Zie de projectwebsite op https://github.com/OpenGVLab/GITM.
English
The captivating realm of Minecraft has attracted substantial research
interest in recent years, serving as a rich platform for developing intelligent
agents capable of functioning in open-world environments. However, the current
research landscape predominantly focuses on specific objectives, such as the
popular "ObtainDiamond" task, and has not yet shown effective generalization to
a broader spectrum of tasks. Furthermore, the current leading success rate for
the "ObtainDiamond" task stands at around 20%, highlighting the limitations of
Reinforcement Learning (RL) based controllers used in existing methods. To
tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel
framework integrates Large Language Models (LLMs) with text-based knowledge and
memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These
agents, equipped with the logic and common sense capabilities of LLMs, can
skillfully navigate complex, sparse-reward environments with text-based
interactions. We develop a set of structured actions and leverage LLMs to
generate action plans for the agents to execute. The resulting LLM-based agent
markedly surpasses previous methods, achieving a remarkable improvement of
+47.5% in success rate on the "ObtainDiamond" task, demonstrating superior
robustness compared to traditional RL-based controllers. Notably, our agent is
the first to procure all items in the Minecraft Overworld technology tree,
demonstrating its extensive capabilities. GITM does not need any GPU for
training, but a single CPU node with 32 CPU cores is enough. This research
shows the potential of LLMs in developing capable agents for handling
long-horizon, complex tasks and adapting to uncertainties in open-world
environments. See the project website at https://github.com/OpenGVLab/GITM.