InstructVLA: Vision-Taal-Actie Instructieafstemming van Begrip naar Manipulatie
InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation
July 23, 2025
Auteurs: Shuai Yang, Hao Li, Yilun Chen, Bin Wang, Yang Tian, Tai Wang, Hanqing Wang, Feng Zhao, Yiyi Liao, Jiangmiao Pang
cs.AI
Samenvatting
Om effectief te kunnen functioneren in de echte wereld, moeten robots multimodale redenering integreren met precieze actiegeneratie. Bestaande vision-language-action (VLA)-modellen offeren echter vaak het een op voor het ander, beperken hun mogelijkheden tot taakspecifieke manipulatiedata en lijden aan catastrofaal vergeten van vooraf getrainde vision-language-vaardigheden. Om deze kloof te overbruggen, introduceren we InstructVLA, een end-to-end VLA-model dat de flexibele redenering van grote vision-language-modellen (VLMs) behoudt terwijl het toonaangevende manipulatieresultaten levert. InstructVLA introduceert een nieuwe trainingsparadigma, Vision-Language-Action Instruction Tuning (VLA-IT), dat multimodale training gebruikt met een mixture-of-experts-aanpassing om tekstuele redenering en actiegeneratie gezamenlijk te optimaliseren op zowel standaard VLM-corpora als een samengestelde 650K-sample VLA-IT-dataset. Op in-domain SimplerEnv-taken behaalt InstructVLA een verbetering van 30,5% ten opzichte van SpatialVLA. Om generalisatie te evalueren, introduceren we SimplerEnv-Instruct, een benchmark van 80 taken die gesloten-luscontrole en begrip van hoogwaardige instructies vereist, waar het een fijn afgestelde OpenVLA met 92% overtreft en een actie-expert ondersteund door GPT-4o met 29%. Daarnaast overtreft InstructVLA baseline-VLM's op multimodale taken en vertoont het inference-time-schaling door tekstuele redenering te benutten om de manipulatieresultaten te verbeteren in zowel gesimuleerde als real-world-omgevingen. Deze resultaten demonstreren het potentieel van InstructVLA voor het overbruggen van intuïtieve en stuurbare mens-robotinteractie met efficiënt beleidsleren.
English
To operate effectively in the real world, robots must integrate multimodal
reasoning with precise action generation. However, existing
vision-language-action (VLA) models often sacrifice one for the other, narrow
their abilities to task-specific manipulation data, and suffer catastrophic
forgetting of pre-trained vision-language capabilities. To bridge this gap, we
introduce InstructVLA, an end-to-end VLA model that preserves the flexible
reasoning of large vision-language models (VLMs) while delivering leading
manipulation performance. InstructVLA introduces a novel training paradigm,
Vision-Language-Action Instruction Tuning (VLA-IT), which employs multimodal
training with mixture-of-experts adaptation to jointly optimize textual
reasoning and action generation on both standard VLM corpora and a curated
650K-sample VLA-IT dataset. On in-domain SimplerEnv tasks, InstructVLA achieves
30.5% improvement over SpatialVLA. To evaluate generalization, we introduce
SimplerEnv-Instruct, an 80-task benchmark requiring closed-loop control and
high-level instruction understanding, where it outperforms a fine-tuned OpenVLA
by 92% and an action expert aided by GPT-4o by 29%. Additionally, InstructVLA
surpasses baseline VLMs on multimodal tasks and exhibits inference-time scaling
by leveraging textual reasoning to boost manipulation performance in both
simulated and real-world settings. These results demonstrate InstructVLA's
potential for bridging intuitive and steerable human-robot interaction with
efficient policy learning.