InstructVLA: Vision-Language-Action-Instruktionsfeinabstimmung vom Verständnis zur Manipulation
InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation
July 23, 2025
papers.authors: Shuai Yang, Hao Li, Yilun Chen, Bin Wang, Yang Tian, Tai Wang, Hanqing Wang, Feng Zhao, Yiyi Liao, Jiangmiao Pang
cs.AI
papers.abstract
Um effektiv in der realen Welt zu agieren, müssen Roboter multimodales Denken mit präziser Aktionsgenerierung integrieren. Bisherige Vision-Language-Action (VLA)-Modelle opfern jedoch oft eines zugunsten des anderen, beschränken ihre Fähigkeiten auf aufgabenbezogene Manipulationsdaten und leiden unter katastrophalem Vergessen von vortrainierten Vision-Language-Fähigkeiten. Um diese Lücke zu schließen, stellen wir InstructVLA vor, ein end-to-end VLA-Modell, das das flexible Denken großer Vision-Language-Modelle (VLMs) bewahrt und gleichzeitig führende Manipulationsleistung liefert. InstructVLA führt ein neuartiges Trainingsparadigma ein, das Vision-Language-Action Instruction Tuning (VLA-IT), das multimodales Training mit Mixture-of-Experts-Adaptation nutzt, um textbasiertes Denken und Aktionsgenerierung sowohl auf Standard-VLM-Korpora als auch auf einem kuratierten 650K-Beispiele umfassenden VLA-IT-Datensatz gemeinsam zu optimieren. Bei in-domain SimplerEnv-Aufgaben erzielt InstructVLA eine 30,5%ige Verbesserung gegenüber SpatialVLA. Um die Generalisierung zu bewerten, führen wir SimplerEnv-Instruct ein, einen Benchmark mit 80 Aufgaben, der geschlossene Regelkreise und das Verständnis hochrangiger Anweisungen erfordert, wo es einen feinabgestimmten OpenVLA um 92% und einen von GPT-4o unterstützten Aktionsspezialisten um 29% übertrifft. Zusätzlich übertrifft InstructVLA Baseline-VLMs bei multimodalen Aufgaben und zeigt Inferenzzeit-Skalierung, indem es textbasiertes Denken nutzt, um die Manipulationsleistung sowohl in simulierten als auch in realen Umgebungen zu steigern. Diese Ergebnisse demonstrieren das Potenzial von InstructVLA, intuitive und steuerbare Mensch-Roboter-Interaktion mit effizientem Policy-Lernen zu verbinden.
English
To operate effectively in the real world, robots must integrate multimodal
reasoning with precise action generation. However, existing
vision-language-action (VLA) models often sacrifice one for the other, narrow
their abilities to task-specific manipulation data, and suffer catastrophic
forgetting of pre-trained vision-language capabilities. To bridge this gap, we
introduce InstructVLA, an end-to-end VLA model that preserves the flexible
reasoning of large vision-language models (VLMs) while delivering leading
manipulation performance. InstructVLA introduces a novel training paradigm,
Vision-Language-Action Instruction Tuning (VLA-IT), which employs multimodal
training with mixture-of-experts adaptation to jointly optimize textual
reasoning and action generation on both standard VLM corpora and a curated
650K-sample VLA-IT dataset. On in-domain SimplerEnv tasks, InstructVLA achieves
30.5% improvement over SpatialVLA. To evaluate generalization, we introduce
SimplerEnv-Instruct, an 80-task benchmark requiring closed-loop control and
high-level instruction understanding, where it outperforms a fine-tuned OpenVLA
by 92% and an action expert aided by GPT-4o by 29%. Additionally, InstructVLA
surpasses baseline VLMs on multimodal tasks and exhibits inference-time scaling
by leveraging textual reasoning to boost manipulation performance in both
simulated and real-world settings. These results demonstrate InstructVLA's
potential for bridging intuitive and steerable human-robot interaction with
efficient policy learning.