Fantasma no Minecraft: Agentes Geralmente Capazes para Ambientes de Mundo Aberto via Modelos de Linguagem de Grande Escala com Conhecimento e Memória Baseados em Texto
Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge and Memory
May 25, 2023
Autores: Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai
cs.AI
Resumo
O fascinante mundo do Minecraft tem atraído um interesse substancial de pesquisa nos últimos anos, servindo como uma plataforma rica para o desenvolvimento de agentes inteligentes capazes de funcionar em ambientes de mundo aberto. No entanto, o cenário atual de pesquisa foca predominantemente em objetivos específicos, como a popular tarefa "ObtainDiamond", e ainda não demonstrou uma generalização eficaz para um espectro mais amplo de tarefas. Além disso, a taxa de sucesso atual para a tarefa "ObtainDiamond" é de cerca de 20%, destacando as limitações dos controladores baseados em Aprendizado por Reforço (RL) usados nos métodos existentes. Para enfrentar esses desafios, introduzimos o Ghost in the Minecraft (GITM), um novo framework que integra Modelos de Linguagem de Grande Escala (LLMs) com conhecimento e memória baseados em texto, visando criar Agentes Geralmente Capazes (GCAs) no Minecraft. Esses agentes, equipados com as capacidades de lógica e senso comum dos LLMs, podem navegar habilmente em ambientes complexos e de recompensa esparsa com interações baseadas em texto. Desenvolvemos um conjunto de ações estruturadas e aproveitamos os LLMs para gerar planos de ação para os agentes executarem. O agente baseado em LLM resultante supera significativamente os métodos anteriores, alcançando uma melhoria notável de +47,5% na taxa de sucesso na tarefa "ObtainDiamond", demonstrando uma robustez superior em comparação com os controladores tradicionais baseados em RL. Notavelmente, nosso agente é o primeiro a obter todos os itens da árvore tecnológica do Minecraft Overworld, demonstrando suas extensas capacidades. O GITM não precisa de nenhuma GPU para treinamento, mas um único nó de CPU com 32 núcleos de CPU é suficiente. Esta pesquisa mostra o potencial dos LLMs no desenvolvimento de agentes capazes de lidar com tarefas complexas de longo prazo e de se adaptar a incertezas em ambientes de mundo aberto. Veja o site do projeto em https://github.com/OpenGVLab/GITM.
English
The captivating realm of Minecraft has attracted substantial research
interest in recent years, serving as a rich platform for developing intelligent
agents capable of functioning in open-world environments. However, the current
research landscape predominantly focuses on specific objectives, such as the
popular "ObtainDiamond" task, and has not yet shown effective generalization to
a broader spectrum of tasks. Furthermore, the current leading success rate for
the "ObtainDiamond" task stands at around 20%, highlighting the limitations of
Reinforcement Learning (RL) based controllers used in existing methods. To
tackle these challenges, we introduce Ghost in the Minecraft (GITM), a novel
framework integrates Large Language Models (LLMs) with text-based knowledge and
memory, aiming to create Generally Capable Agents (GCAs) in Minecraft. These
agents, equipped with the logic and common sense capabilities of LLMs, can
skillfully navigate complex, sparse-reward environments with text-based
interactions. We develop a set of structured actions and leverage LLMs to
generate action plans for the agents to execute. The resulting LLM-based agent
markedly surpasses previous methods, achieving a remarkable improvement of
+47.5% in success rate on the "ObtainDiamond" task, demonstrating superior
robustness compared to traditional RL-based controllers. Notably, our agent is
the first to procure all items in the Minecraft Overworld technology tree,
demonstrating its extensive capabilities. GITM does not need any GPU for
training, but a single CPU node with 32 CPU cores is enough. This research
shows the potential of LLMs in developing capable agents for handling
long-horizon, complex tasks and adapting to uncertainties in open-world
environments. See the project website at https://github.com/OpenGVLab/GITM.