JARVIS-1: Agenti Multitasking in Mondi Aperti con Modelli Linguistici Multimodali Aumentati dalla Memoria
JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models
November 10, 2023
Autori: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang
cs.AI
Abstract
Raggiungere una pianificazione e un controllo simili a quelli umani con osservazioni multimodali in un mondo aperto rappresenta una pietra miliare fondamentale per agenti generalisti più funzionali. Gli approcci esistenti sono in grado di gestire determinati compiti a lungo termine in un mondo aperto. Tuttavia, continuano a incontrare difficoltà quando il numero di compiti nel mondo aperto potrebbe essere potenzialmente infinito e mancano della capacità di migliorare progressivamente il completamento dei compiti man mano che il tempo di gioco avanza. Presentiamo JARVIS-1, un agente per mondi aperti in grado di percepire input multimodali (osservazioni visive e istruzioni umane), generare piani sofisticati ed eseguire controlli incarnati, tutto all'interno dell'universo aperto e impegnativo di Minecraft. Nello specifico, sviluppiamo JARVIS-1 sulla base di modelli linguistici multimodali pre-addestrati, che mappano osservazioni visive e istruzioni testuali a piani. I piani verranno infine inviati ai controller condizionati agli obiettivi. Dotiamo JARVIS-1 di una memoria multimodale, che facilita la pianificazione utilizzando sia conoscenze pre-addestrate che le sue esperienze di sopravvivenza nel gioco. Nei nostri esperimenti, JARVIS-1 mostra prestazioni quasi perfette in oltre 200 compiti vari del Minecraft Universe Benchmark, che vanno dal livello base a quello intermedio. JARVIS-1 ha raggiunto un tasso di completamento del 12,5% nel compito a lungo termine del piccone di diamante. Questo rappresenta un aumento significativo fino a 5 volte rispetto ai record precedenti. Inoltre, dimostriamo che JARVIS-1 è in grado di auto-migliorarsi seguendo un paradigma di apprendimento permanente grazie alla memoria multimodale, stimolando un'intelligenza più generale e una maggiore autonomia. La pagina del progetto è disponibile all'indirizzo https://craftjarvis-jarvis1.github.io.
English
Achieving human-like planning and control with multimodal observations in an
open world is a key milestone for more functional generalist agents. Existing
approaches can handle certain long-horizon tasks in an open world. However,
they still struggle when the number of open-world tasks could potentially be
infinite and lack the capability to progressively enhance task completion as
game time progresses. We introduce JARVIS-1, an open-world agent that can
perceive multimodal input (visual observations and human instructions),
generate sophisticated plans, and perform embodied control, all within the
popular yet challenging open-world Minecraft universe. Specifically, we develop
JARVIS-1 on top of pre-trained multimodal language models, which map visual
observations and textual instructions to plans. The plans will be ultimately
dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a
multimodal memory, which facilitates planning using both pre-trained knowledge
and its actual game survival experiences. In our experiments, JARVIS-1 exhibits
nearly perfect performances across over 200 varying tasks from the Minecraft
Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has
achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task.
This represents a significant increase up to 5 times compared to previous
records. Furthermore, we show that JARVIS-1 is able to self-improve
following a life-long learning paradigm thanks to multimodal memory, sparking a
more general intelligence and improved autonomy. The project page is available
at https://craftjarvis-jarvis1.github.io.