JARVIS-1: Agentes Multitarefa de Mundo Aberto com Modelos de Linguagem Multimodais Aumentados por Memória
JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models
November 10, 2023
Autores: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang
cs.AI
Resumo
Alcançar planejamento e controle semelhantes aos humanos com observações multimodais em um mundo aberto é um marco fundamental para agentes generalistas mais funcionais. As abordagens existentes conseguem lidar com certas tarefas de longo prazo em um mundo aberto. No entanto, elas ainda enfrentam dificuldades quando o número de tarefas no mundo aberto pode ser potencialmente infinito e carecem da capacidade de aprimorar progressivamente a conclusão de tarefas à medida que o tempo do jogo avança. Apresentamos o JARVIS-1, um agente de mundo aberto que pode perceber entradas multimodais (observações visuais e instruções humanas), gerar planos sofisticados e realizar controle incorporado, tudo dentro do popular e desafiador universo aberto do Minecraft. Especificamente, desenvolvemos o JARVIS-1 com base em modelos de linguagem multimodal pré-treinados, que mapeiam observações visuais e instruções textuais para planos. Os planos serão finalmente enviados para controladores condicionados por objetivos. Equipamos o JARVIS-1 com uma memória multimodal, que facilita o planejamento usando tanto o conhecimento pré-treinado quanto suas experiências reais de sobrevivência no jogo. Em nossos experimentos, o JARVIS-1 exibe desempenhos quase perfeitos em mais de 200 tarefas variadas do Minecraft Universe Benchmark, variando de níveis iniciais a intermediários. O JARVIS-1 alcançou uma taxa de conclusão de 12,5% na tarefa de longo prazo de obter uma picareta de diamante. Isso representa um aumento significativo de até 5 vezes em comparação com os registros anteriores. Além disso, mostramos que o JARVIS-1 é capaz de se autoaperfeiçoar seguindo um paradigma de aprendizado contínuo, graças à memória multimodal, despertando uma inteligência mais geral e uma autonomia aprimorada. A página do projeto está disponível em https://craftjarvis-jarvis1.github.io.
English
Achieving human-like planning and control with multimodal observations in an
open world is a key milestone for more functional generalist agents. Existing
approaches can handle certain long-horizon tasks in an open world. However,
they still struggle when the number of open-world tasks could potentially be
infinite and lack the capability to progressively enhance task completion as
game time progresses. We introduce JARVIS-1, an open-world agent that can
perceive multimodal input (visual observations and human instructions),
generate sophisticated plans, and perform embodied control, all within the
popular yet challenging open-world Minecraft universe. Specifically, we develop
JARVIS-1 on top of pre-trained multimodal language models, which map visual
observations and textual instructions to plans. The plans will be ultimately
dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a
multimodal memory, which facilitates planning using both pre-trained knowledge
and its actual game survival experiences. In our experiments, JARVIS-1 exhibits
nearly perfect performances across over 200 varying tasks from the Minecraft
Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has
achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task.
This represents a significant increase up to 5 times compared to previous
records. Furthermore, we show that JARVIS-1 is able to self-improve
following a life-long learning paradigm thanks to multimodal memory, sparking a
more general intelligence and improved autonomy. The project page is available
at https://craftjarvis-jarvis1.github.io.