JARVIS-VLA: Addestramento Post-Allenamento di Modelli Visione-Linguaggio su Larga Scala per Giocare a Giochi Visivi con Tastiera e Mouse
JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse
March 20, 2025
Autori: Muyao Li, Zihao Wang, Kaichen He, Xiaojian Ma, Yitao Liang
cs.AI
Abstract
Recentemente, il processo decisionale basato su azioni in ambienti open-world ha ricevuto un'attenzione significativa. I modelli Visual Language Action (VLA), pre-addestrati su grandi dataset web, hanno mostrato potenziale nelle attività di decision-making. Tuttavia, il lavoro precedente si è concentrato principalmente sull'addestramento post-azione, spesso trascurando miglioramenti al modello di base stesso. In risposta, introduciamo un approccio innovativo, Act from Visual Language Post-Training, che affina i modelli Visual Language Models (VLM) attraverso una guida visiva e linguistica in modo auto-supervisionato. Questo miglioramento potenzia le capacità dei modelli nella conoscenza del mondo, nel riconoscimento visivo e nel grounding spaziale in ambienti open-world. Seguendo i paradigmi di post-addestramento sopra descritti, otteniamo i primi modelli VLA in Minecraft in grado di seguire istruzioni umane su oltre 1.000 diverse attività atomiche, tra cui creazione, fusione, cottura, estrazione e combattimento. I nostri esperimenti dimostrano che il post-addestramento su compiti non legati a traiettorie porta a un miglioramento significativo del 40% rispetto al miglior agente di riferimento su un insieme diversificato di attività atomiche. Inoltre, dimostriamo che il nostro approccio supera le politiche tradizionali basate sull'apprendimento per imitazione in Minecraft, raggiungendo prestazioni all'avanguardia. Abbiamo reso disponibili il codice, i modelli e i dataset per favorire ulteriori ricerche. La pagina del progetto è disponibile all'indirizzo https://craftjarvis.github.io/JarvisVLA.
English
Recently, action-based decision-making in open-world environments has gained
significant attention. Visual Language Action (VLA) models, pretrained on
large-scale web datasets, have shown promise in decision-making tasks. However,
previous work has primarily focused on action post-training, often neglecting
enhancements to the foundational model itself. In response, we introduce a
novel approach, Act from Visual Language Post-Training, which refines Visual
Language Models (VLMs) through visual and linguistic guidance in a
self-supervised manner. This enhancement improves the models' capabilities in
world knowledge, visual recognition, and spatial grounding in open-world
environments. Following the above post-training paradigms, we obtain the first
VLA models in Minecraft that can follow human instructions on over 1k different
atomic tasks, including crafting, smelting, cooking, mining, and killing. Our
experiments demonstrate that post-training on non-trajectory tasks leads to a
significant 40% improvement over the best agent baseline on a diverse set of
atomic tasks. Furthermore, we demonstrate that our approach surpasses
traditional imitation learning-based policies in Minecraft, achieving
state-of-the-art performance. We have open-sourced the code, models, and
datasets to foster further research. The project page can be found in
https://craftjarvis.github.io/JarvisVLA.