InstructVLA: Sintonizzazione delle Istruzioni Visione-Linguaggio-Azione dalla Comprensione alla Manipolazione
InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation
July 23, 2025
Autori: Shuai Yang, Hao Li, Yilun Chen, Bin Wang, Yang Tian, Tai Wang, Hanqing Wang, Feng Zhao, Yiyi Liao, Jiangmiao Pang
cs.AI
Abstract
Per operare efficacemente nel mondo reale, i robot devono integrare il ragionamento multimodale con la generazione precisa di azioni. Tuttavia, i modelli esistenti visione-linguaggio-azione (VLA) spesso sacrificano uno per l'altro, limitano le loro capacità ai dati di manipolazione specifici per il compito e soffrono di un oblio catastrofico delle capacità pre-addestrate di visione-linguaggio. Per colmare questa lacuna, introduciamo InstructVLA, un modello VLA end-to-end che preserva il ragionamento flessibile dei grandi modelli di visione-linguaggio (VLM) mentre offre prestazioni leader nella manipolazione. InstructVLA introduce un nuovo paradigma di addestramento, Vision-Language-Action Instruction Tuning (VLA-IT), che utilizza un addestramento multimodale con adattamento a miscela di esperti per ottimizzare congiuntamente il ragionamento testuale e la generazione di azioni su corpora VLM standard e su un dataset VLA-IT curato di 650K campioni. Su compiti in-domain SimplerEnv, InstructVLA raggiunge un miglioramento del 30,5% rispetto a SpatialVLA. Per valutare la generalizzazione, introduciamo SimplerEnv-Instruct, un benchmark di 80 compiti che richiede controllo a ciclo chiuso e comprensione di istruzioni di alto livello, dove supera un OpenVLA fine-tuned del 92% e un esperto di azioni assistito da GPT-4o del 29%. Inoltre, InstructVLA supera i VLM di riferimento su compiti multimodali e mostra una scalabilità al momento dell'inferenza sfruttando il ragionamento testuale per migliorare le prestazioni di manipolazione sia in ambienti simulati che nel mondo reale. Questi risultati dimostrano il potenziale di InstructVLA per un'interazione uomo-robot intuitiva e controllabile con un apprendimento efficiente delle politiche.
English
To operate effectively in the real world, robots must integrate multimodal
reasoning with precise action generation. However, existing
vision-language-action (VLA) models often sacrifice one for the other, narrow
their abilities to task-specific manipulation data, and suffer catastrophic
forgetting of pre-trained vision-language capabilities. To bridge this gap, we
introduce InstructVLA, an end-to-end VLA model that preserves the flexible
reasoning of large vision-language models (VLMs) while delivering leading
manipulation performance. InstructVLA introduces a novel training paradigm,
Vision-Language-Action Instruction Tuning (VLA-IT), which employs multimodal
training with mixture-of-experts adaptation to jointly optimize textual
reasoning and action generation on both standard VLM corpora and a curated
650K-sample VLA-IT dataset. On in-domain SimplerEnv tasks, InstructVLA achieves
30.5% improvement over SpatialVLA. To evaluate generalization, we introduce
SimplerEnv-Instruct, an 80-task benchmark requiring closed-loop control and
high-level instruction understanding, where it outperforms a fine-tuned OpenVLA
by 92% and an action expert aided by GPT-4o by 29%. Additionally, InstructVLA
surpasses baseline VLMs on multimodal tasks and exhibits inference-time scaling
by leveraging textual reasoning to boost manipulation performance in both
simulated and real-world settings. These results demonstrate InstructVLA's
potential for bridging intuitive and steerable human-robot interaction with
efficient policy learning.