ChatPaper.aiChatPaper

Geist in Minecraft: Allgemein fähige Agenten für offene Welten durch große Sprachmodelle mit textbasiertem Wissen und Gedächtnis

Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge and Memory

May 25, 2023
Autoren: Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai
cs.AI

Zusammenfassung

Die faszinierende Welt von Minecraft hat in den letzten Jahren erhebliches Forschungsinteresse geweckt und dient als reichhaltige Plattform für die Entwicklung intelligenter Agenten, die in offenen Welten agieren können. Der aktuelle Forschungsstand konzentriert sich jedoch überwiegend auf spezifische Ziele, wie die beliebte Aufgabe „ObtainDiamond“, und zeigt noch keine effektive Generalisierung auf ein breiteres Spektrum von Aufgaben. Darüber hinaus liegt die derzeit führende Erfolgsrate für die „ObtainDiamond“-Aufgabe bei etwa 20 %, was die Grenzen der auf Reinforcement Learning (RL) basierenden Steuerungsmethoden in bestehenden Ansätzen verdeutlicht. Um diese Herausforderungen zu bewältigen, stellen wir Ghost in the Minecraft (GITM) vor, ein neuartiges Framework, das Large Language Models (LLMs) mit textbasiertem Wissen und Gedächtnis integriert, um Generally Capable Agents (GCAs) in Minecraft zu entwickeln. Diese Agenten, ausgestattet mit der Logik und dem gesunden Menschenverstand von LLMs, können geschickt komplexe, umgebungen mit spärlichen Belohnungen durch textbasierte Interaktionen navigieren. Wir entwickeln eine Reihe strukturierter Aktionen und nutzen LLMs, um Aktionspläne für die Ausführung durch die Agenten zu generieren. Der daraus resultierende LLM-basierte Agent übertrifft bisherige Methoden deutlich und erreicht eine bemerkenswerte Verbesserung von +47,5 % bei der Erfolgsrate in der „ObtainDiamond“-Aufgabe, was eine überlegene Robustheit im Vergleich zu traditionellen RL-basierten Steuerungen zeigt. Bemerkenswerterweise ist unser Agent der erste, der alle Gegenstände im Technologiebaum der Minecraft-Overworld beschafft, was seine umfangreichen Fähigkeiten unterstreicht. GITM benötigt keine GPU für das Training, sondern ein einzelner CPU-Knoten mit 32 CPU-Kernen reicht aus. Diese Forschung zeigt das Potenzial von LLMs bei der Entwicklung fähiger Agenten zur Bewältigung langfristiger, komplexer Aufgaben und zur Anpassung an Unsicherheiten in offenen Welten. Weitere Informationen finden Sie auf der Projektwebsite unter https://github.com/OpenGVLab/GITM.
English
The captivating realm of Minecraft has attracted substantial research interest in recent years, serving as a rich platform for developing intelligent agents capable of functioning in open-world environments. However, the current research landscape predominantly focuses on specific objectives, such as the popular "ObtainDiamond" task, and has not yet shown effective generalization to a broader spectrum of tasks. Furthermore, the current leading success rate for the "ObtainDiamond" task stands at around 20%, highlighting the limitations of Reinforcement Learning (RL) based controllers used in existing methods. To tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel framework integrates Large Language Models (LLMs) with text-based knowledge and memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These agents, equipped with the logic and common sense capabilities of LLMs, can skillfully navigate complex, sparse-reward environments with text-based interactions. We develop a set of structured actions and leverage LLMs to generate action plans for the agents to execute. The resulting LLM-based agent markedly surpasses previous methods, achieving a remarkable improvement of +47.5% in success rate on the "ObtainDiamond" task, demonstrating superior robustness compared to traditional RL-based controllers. Notably, our agent is the first to procure all items in the Minecraft Overworld technology tree, demonstrating its extensive capabilities. GITM does not need any GPU for training, but a single CPU node with 32 CPU cores is enough. This research shows the potential of LLMs in developing capable agents for handling long-horizon, complex tasks and adapting to uncertainties in open-world environments. See the project website at https://github.com/OpenGVLab/GITM.
PDF20December 15, 2024