JARVIS-1: Agentes Multitarea en Mundos Abiertos con Modelos de Lenguaje Multimodales Aumentados por Memoria

Resumen

Lograr una planificación y control similares a los humanos con observaciones multimodales en un mundo abierto es un hito clave para agentes generalistas más funcionales. Los enfoques existentes pueden manejar ciertas tareas de largo horizonte en un mundo abierto. Sin embargo, aún tienen dificultades cuando el número de tareas en el mundo abierto podría ser potencialmente infinito y carecen de la capacidad para mejorar progresivamente la finalización de tareas a medida que avanza el tiempo de juego. Presentamos JARVIS-1, un agente de mundo abierto que puede percibir entradas multimodales (observaciones visuales e instrucciones humanas), generar planes sofisticados y realizar control encarnado, todo dentro del popular y desafiante universo abierto de Minecraft. Específicamente, desarrollamos JARVIS-1 sobre modelos de lenguaje multimodal preentrenados, que mapean observaciones visuales e instrucciones textuales a planes. Los planes se enviarán finalmente a controladores condicionados por objetivos. Equipamos a JARVIS-1 con una memoria multimodal, que facilita la planificación utilizando tanto conocimiento preentrenado como sus experiencias reales de supervivencia en el juego. En nuestros experimentos, JARVIS-1 exhibe un rendimiento casi perfecto en más de 200 tareas variadas del Minecraft Universe Benchmark, que van desde niveles de entrada hasta intermedios. JARVIS-1 ha logrado una tasa de finalización del 12.5% en la tarea de largo horizonte de obtener un pico de diamante. Esto representa un aumento significativo de hasta 5 veces en comparación con registros anteriores. Además, demostramos que JARVIS-1 es capaz de auto-mejorarse siguiendo un paradigma de aprendizaje continuo gracias a la memoria multimodal, despertando una inteligencia más general y una autonomía mejorada. La página del proyecto está disponible en https://craftjarvis-jarvis1.github.io.

English

Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. In our experiments, JARVIS-1 exhibits nearly perfect performances across over 200 varying tasks from the Minecraft Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task. This represents a significant increase up to 5 times compared to previous records. Furthermore, we show that JARVIS-1 is able to self-improve following a life-long learning paradigm thanks to multimodal memory, sparking a more general intelligence and improved autonomy. The project page is available at https://craftjarvis-jarvis1.github.io.

JARVIS-1: Agentes Multitarea en Mundos Abiertos con Modelos de Lenguaje Multimodales Aumentados por Memoria

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

Resumen

Support