JARVIS-1: Agentes Multitarea en Mundos Abiertos con Modelos de Lenguaje Multimodales Aumentados por Memoria
JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models
November 10, 2023
Autores: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang
cs.AI
Resumen
Lograr una planificación y control similares a los humanos con observaciones multimodales en un mundo abierto es un hito clave para agentes generalistas más funcionales. Los enfoques existentes pueden manejar ciertas tareas de largo horizonte en un mundo abierto. Sin embargo, aún tienen dificultades cuando el número de tareas en el mundo abierto podría ser potencialmente infinito y carecen de la capacidad para mejorar progresivamente la finalización de tareas a medida que avanza el tiempo de juego. Presentamos JARVIS-1, un agente de mundo abierto que puede percibir entradas multimodales (observaciones visuales e instrucciones humanas), generar planes sofisticados y realizar control encarnado, todo dentro del popular y desafiante universo abierto de Minecraft. Específicamente, desarrollamos JARVIS-1 sobre modelos de lenguaje multimodal preentrenados, que mapean observaciones visuales e instrucciones textuales a planes. Los planes se enviarán finalmente a controladores condicionados por objetivos. Equipamos a JARVIS-1 con una memoria multimodal, que facilita la planificación utilizando tanto conocimiento preentrenado como sus experiencias reales de supervivencia en el juego. En nuestros experimentos, JARVIS-1 exhibe un rendimiento casi perfecto en más de 200 tareas variadas del Minecraft Universe Benchmark, que van desde niveles de entrada hasta intermedios. JARVIS-1 ha logrado una tasa de finalización del 12.5% en la tarea de largo horizonte de obtener un pico de diamante. Esto representa un aumento significativo de hasta 5 veces en comparación con registros anteriores. Además, demostramos que JARVIS-1 es capaz de auto-mejorarse siguiendo un paradigma de aprendizaje continuo gracias a la memoria multimodal, despertando una inteligencia más general y una autonomía mejorada. La página del proyecto está disponible en https://craftjarvis-jarvis1.github.io.
English
Achieving human-like planning and control with multimodal observations in an
open world is a key milestone for more functional generalist agents. Existing
approaches can handle certain long-horizon tasks in an open world. However,
they still struggle when the number of open-world tasks could potentially be
infinite and lack the capability to progressively enhance task completion as
game time progresses. We introduce JARVIS-1, an open-world agent that can
perceive multimodal input (visual observations and human instructions),
generate sophisticated plans, and perform embodied control, all within the
popular yet challenging open-world Minecraft universe. Specifically, we develop
JARVIS-1 on top of pre-trained multimodal language models, which map visual
observations and textual instructions to plans. The plans will be ultimately
dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a
multimodal memory, which facilitates planning using both pre-trained knowledge
and its actual game survival experiences. In our experiments, JARVIS-1 exhibits
nearly perfect performances across over 200 varying tasks from the Minecraft
Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has
achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task.
This represents a significant increase up to 5 times compared to previous
records. Furthermore, we show that JARVIS-1 is able to self-improve
following a life-long learning paradigm thanks to multimodal memory, sparking a
more general intelligence and improved autonomy. The project page is available
at https://craftjarvis-jarvis1.github.io.