InstructVLA: Sintonizzazione delle Istruzioni Visione-Linguaggio-Azione dalla Comprensione alla Manipolazione

Abstract

Per operare efficacemente nel mondo reale, i robot devono integrare il ragionamento multimodale con la generazione precisa di azioni. Tuttavia, i modelli esistenti visione-linguaggio-azione (VLA) spesso sacrificano uno per l'altro, limitano le loro capacità ai dati di manipolazione specifici per il compito e soffrono di un oblio catastrofico delle capacità pre-addestrate di visione-linguaggio. Per colmare questa lacuna, introduciamo InstructVLA, un modello VLA end-to-end che preserva il ragionamento flessibile dei grandi modelli di visione-linguaggio (VLM) mentre offre prestazioni leader nella manipolazione. InstructVLA introduce un nuovo paradigma di addestramento, Vision-Language-Action Instruction Tuning (VLA-IT), che utilizza un addestramento multimodale con adattamento a miscela di esperti per ottimizzare congiuntamente il ragionamento testuale e la generazione di azioni su corpora VLM standard e su un dataset VLA-IT curato di 650K campioni. Su compiti in-domain SimplerEnv, InstructVLA raggiunge un miglioramento del 30,5% rispetto a SpatialVLA. Per valutare la generalizzazione, introduciamo SimplerEnv-Instruct, un benchmark di 80 compiti che richiede controllo a ciclo chiuso e comprensione di istruzioni di alto livello, dove supera un OpenVLA fine-tuned del 92% e un esperto di azioni assistito da GPT-4o del 29%. Inoltre, InstructVLA supera i VLM di riferimento su compiti multimodali e mostra una scalabilità al momento dell'inferenza sfruttando il ragionamento testuale per migliorare le prestazioni di manipolazione sia in ambienti simulati che nel mondo reale. Questi risultati dimostrano il potenziale di InstructVLA per un'interazione uomo-robot intuitiva e controllabile con un apprendimento efficiente delle politiche.

English

To operate effectively in the real world, robots must integrate multimodal reasoning with precise action generation. However, existing vision-language-action (VLA) models often sacrifice one for the other, narrow their abilities to task-specific manipulation data, and suffer catastrophic forgetting of pre-trained vision-language capabilities. To bridge this gap, we introduce InstructVLA, an end-to-end VLA model that preserves the flexible reasoning of large vision-language models (VLMs) while delivering leading manipulation performance. InstructVLA introduces a novel training paradigm, Vision-Language-Action Instruction Tuning (VLA-IT), which employs multimodal training with mixture-of-experts adaptation to jointly optimize textual reasoning and action generation on both standard VLM corpora and a curated 650K-sample VLA-IT dataset. On in-domain SimplerEnv tasks, InstructVLA achieves 30.5% improvement over SpatialVLA. To evaluate generalization, we introduce SimplerEnv-Instruct, an 80-task benchmark requiring closed-loop control and high-level instruction understanding, where it outperforms a fine-tuned OpenVLA by 92% and an action expert aided by GPT-4o by 29%. Additionally, InstructVLA surpasses baseline VLMs on multimodal tasks and exhibits inference-time scaling by leveraging textual reasoning to boost manipulation performance in both simulated and real-world settings. These results demonstrate InstructVLA's potential for bridging intuitive and steerable human-robot interaction with efficient policy learning.

InstructVLA: Sintonizzazione delle Istruzioni Visione-Linguaggio-Azione dalla Comprensione alla Manipolazione

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

Abstract

Support