InstructVLA : Réglage des instructions Vision-Langage-Action, de la compréhension à la manipulation
InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation
July 23, 2025
papers.authors: Shuai Yang, Hao Li, Yilun Chen, Bin Wang, Yang Tian, Tai Wang, Hanqing Wang, Feng Zhao, Yiyi Liao, Jiangmiao Pang
cs.AI
papers.abstract
Pour fonctionner efficacement dans le monde réel, les robots doivent intégrer un raisonnement multimodal avec une génération d'actions précise. Cependant, les modèles vision-langage-action (VLA) existants sacrifient souvent l'un pour l'autre, limitent leurs capacités à des données de manipulation spécifiques à une tâche, et souffrent d'un oubli catastrophique des capacités pré-entraînées en vision-langage. Pour combler cette lacune, nous introduisons InstructVLA, un modèle VLA de bout en bout qui préserve le raisonnement flexible des grands modèles vision-langage (VLM) tout en offrant des performances de manipulation de pointe. InstructVLA introduit un nouveau paradigme d'entraînement, le Vision-Language-Action Instruction Tuning (VLA-IT), qui utilise un entraînement multimodal avec une adaptation de type mixture-of-experts pour optimiser conjointement le raisonnement textuel et la génération d'actions sur des corpus VLM standards et un ensemble de données VLA-IT de 650 000 échantillons soigneusement sélectionnés. Sur les tâches in-domain de SimplerEnv, InstructVLA réalise une amélioration de 30,5 % par rapport à SpatialVLA. Pour évaluer la généralisation, nous introduisons SimplerEnv-Instruct, un benchmark de 80 tâches nécessitant un contrôle en boucle fermée et une compréhension de haut niveau des instructions, où il surpasse un OpenVLA fine-tuné de 92 % et un expert en action assisté par GPT-4o de 29 %. De plus, InstructVLA dépasse les VLM de référence sur les tâches multimodales et montre une mise à l'échelle au moment de l'inférence en exploitant le raisonnement textuel pour améliorer les performances de manipulation dans des environnements simulés et réels. Ces résultats démontrent le potentiel d'InstructVLA pour combiner une interaction homme-robot intuitive et pilotable avec un apprentissage de politiques efficace.
English
To operate effectively in the real world, robots must integrate multimodal
reasoning with precise action generation. However, existing
vision-language-action (VLA) models often sacrifice one for the other, narrow
their abilities to task-specific manipulation data, and suffer catastrophic
forgetting of pre-trained vision-language capabilities. To bridge this gap, we
introduce InstructVLA, an end-to-end VLA model that preserves the flexible
reasoning of large vision-language models (VLMs) while delivering leading
manipulation performance. InstructVLA introduces a novel training paradigm,
Vision-Language-Action Instruction Tuning (VLA-IT), which employs multimodal
training with mixture-of-experts adaptation to jointly optimize textual
reasoning and action generation on both standard VLM corpora and a curated
650K-sample VLA-IT dataset. On in-domain SimplerEnv tasks, InstructVLA achieves
30.5% improvement over SpatialVLA. To evaluate generalization, we introduce
SimplerEnv-Instruct, an 80-task benchmark requiring closed-loop control and
high-level instruction understanding, where it outperforms a fine-tuned OpenVLA
by 92% and an action expert aided by GPT-4o by 29%. Additionally, InstructVLA
surpasses baseline VLMs on multimodal tasks and exhibits inference-time scaling
by leveraging textual reasoning to boost manipulation performance in both
simulated and real-world settings. These results demonstrate InstructVLA's
potential for bridging intuitive and steerable human-robot interaction with
efficient policy learning.