마인크래프트 속의 유령: 텍스트 기반 지식과 메모리를 활용한 대형 언어 모델을 통한 개방형 환경을 위한 일반적 능력 에이전트
Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge and Memory
May 25, 2023
저자: Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai
cs.AI
초록
매혹적인 마인크래프트의 세계는 최근 몇 년 동안 개방형 환경에서 기능할 수 있는 지능형 에이전트를 개발하기 위한 풍부한 플랫폼으로서 상당한 연구 관심을 끌어왔다. 그러나 현재의 연구 동향은 "ObtainDiamond"와 같은 특정 목표에 주로 초점을 맞추고 있으며, 더 광범위한 작업에 대한 효과적인 일반화는 아직 보여주지 못하고 있다. 더욱이, "ObtainDiamond" 작업에 대한 현재 최고 성공률은 약 20%로, 기존 방법에서 사용되는 강화 학습(RL) 기반 컨트롤러의 한계를 강조한다. 이러한 문제를 해결하기 위해, 우리는 대규모 언어 모델(LLM)을 텍스트 기반 지식 및 메모리와 통합한 새로운 프레임워크인 Ghost in the Minecraft(GITM)를 소개한다. 이 프레임워크는 마인크래프트에서 일반적으로 능력 있는 에이전트(GCAs)를 생성하는 것을 목표로 한다. LLM의 논리와 상식 능력을 갖춘 이러한 에이전트는 텍스트 기반 상호작용을 통해 복잡하고 희소한 보상 환경을 능숙하게 탐색할 수 있다. 우리는 구조화된 동작 세트를 개발하고 LLM을 활용하여 에이전트가 실행할 동작 계획을 생성한다. 결과적으로, LLM 기반 에이전트는 기존 방법을 크게 능가하며, "ObtainDiamond" 작업에서 +47.5%의 놀라운 성공률 향상을 달성하여 전통적인 RL 기반 컨트롤러에 비해 우수한 견고성을 보여준다. 특히, 우리의 에이전트는 마인크래프트 오버월드 기술 트리의 모든 아이템을 획득한 첫 번째 사례로, 그 광범위한 능력을 입증한다. GITM은 훈련을 위해 GPU가 필요하지 않으며, 32개의 CPU 코어를 가진 단일 CPU 노드로 충분하다. 이 연구는 LLM이 장기적이고 복잡한 작업을 처리하고 개방형 환경의 불확실성에 적응할 수 있는 능력 있는 에이전트를 개발하는 데 있어 잠재력을 보여준다. 프로젝트 웹사이트는 https://github.com/OpenGVLab/GITM에서 확인할 수 있다.
English
The captivating realm of Minecraft has attracted substantial research
interest in recent years, serving as a rich platform for developing intelligent
agents capable of functioning in open-world environments. However, the current
research landscape predominantly focuses on specific objectives, such as the
popular "ObtainDiamond" task, and has not yet shown effective generalization to
a broader spectrum of tasks. Furthermore, the current leading success rate for
the "ObtainDiamond" task stands at around 20%, highlighting the limitations of
Reinforcement Learning (RL) based controllers used in existing methods. To
tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel
framework integrates Large Language Models (LLMs) with text-based knowledge and
memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These
agents, equipped with the logic and common sense capabilities of LLMs, can
skillfully navigate complex, sparse-reward environments with text-based
interactions. We develop a set of structured actions and leverage LLMs to
generate action plans for the agents to execute. The resulting LLM-based agent
markedly surpasses previous methods, achieving a remarkable improvement of
+47.5% in success rate on the "ObtainDiamond" task, demonstrating superior
robustness compared to traditional RL-based controllers. Notably, our agent is
the first to procure all items in the Minecraft Overworld technology tree,
demonstrating its extensive capabilities. GITM does not need any GPU for
training, but a single CPU node with 32 CPU cores is enough. This research
shows the potential of LLMs in developing capable agents for handling
long-horizon, complex tasks and adapting to uncertainties in open-world
environments. See the project website at https://github.com/OpenGVLab/GITM.