Призрак в Minecraft: Универсальные агенты для открытых миров с использованием крупных языковых моделей, основанных на текстовых знаниях и памяти
Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge and Memory
May 25, 2023
Авторы: Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai
cs.AI
Аннотация
Захватывающий мир Minecraft привлек значительный исследовательский интерес в последние годы, став богатой платформой для разработки интеллектуальных агентов, способных функционировать в открытых мирах. Однако текущие исследования в основном сосредоточены на конкретных задачах, таких как популярная задача "Получить алмаз", и пока не демонстрируют эффективной обобщаемости на более широкий спектр задач. Более того, текущий лидирующий показатель успешности выполнения задачи "Получить алмаз" составляет около 20%, что подчеркивает ограничения контроллеров на основе обучения с подкреплением (RL), используемых в существующих методах. Для решения этих проблем мы представляем Ghost in the Minecraft (GITM) — новую структуру, которая интегрирует большие языковые модели (LLM) с текстовыми знаниями и памятью, стремясь создать универсально способных агентов (GCA) в Minecraft. Эти агенты, оснащенные логическими и здравомыслящими возможностями LLM, могут умело ориентироваться в сложных средах с редкими вознаграждениями, используя текстовые взаимодействия. Мы разрабатываем набор структурированных действий и используем LLM для генерации планов действий, которые агенты могут выполнять. Полученный агент на основе LLM значительно превосходит предыдущие методы, демонстрируя впечатляющее улучшение успешности на +47,5% в задаче "Получить алмаз", что свидетельствует о его превосходной устойчивости по сравнению с традиционными RL-контроллерами. Примечательно, что наш агент первым смог получить все предметы в технологическом дереве Minecraft Overworld, демонстрируя свои обширные возможности. GITM не требует использования GPU для обучения, достаточно одного CPU-узла с 32 ядрами. Это исследование показывает потенциал LLM в разработке способных агентов для выполнения долгосрочных, сложных задач и адаптации к неопределенностям в открытых мирах. Подробнее о проекте можно узнать на сайте: https://github.com/OpenGVLab/GITM.
English
The captivating realm of Minecraft has attracted substantial research
interest in recent years, serving as a rich platform for developing intelligent
agents capable of functioning in open-world environments. However, the current
research landscape predominantly focuses on specific objectives, such as the
popular "ObtainDiamond" task, and has not yet shown effective generalization to
a broader spectrum of tasks. Furthermore, the current leading success rate for
the "ObtainDiamond" task stands at around 20%, highlighting the limitations of
Reinforcement Learning (RL) based controllers used in existing methods. To
tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel
framework integrates Large Language Models (LLMs) with text-based knowledge and
memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These
agents, equipped with the logic and common sense capabilities of LLMs, can
skillfully navigate complex, sparse-reward environments with text-based
interactions. We develop a set of structured actions and leverage LLMs to
generate action plans for the agents to execute. The resulting LLM-based agent
markedly surpasses previous methods, achieving a remarkable improvement of
+47.5% in success rate on the "ObtainDiamond" task, demonstrating superior
robustness compared to traditional RL-based controllers. Notably, our agent is
the first to procure all items in the Minecraft Overworld technology tree,
demonstrating its extensive capabilities. GITM does not need any GPU for
training, but a single CPU node with 32 CPU cores is enough. This research
shows the potential of LLMs in developing capable agents for handling
long-horizon, complex tasks and adapting to uncertainties in open-world
environments. See the project website at https://github.com/OpenGVLab/GITM.