ChatPaper.aiChatPaper

InstructVLA: Ajuste de Instruções Visão-Linguagem-Ação da Compreensão à Manipulação

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

July 23, 2025
Autores: Shuai Yang, Hao Li, Yilun Chen, Bin Wang, Yang Tian, Tai Wang, Hanqing Wang, Feng Zhao, Yiyi Liao, Jiangmiao Pang
cs.AI

Resumo

Para operar de forma eficaz no mundo real, os robôs devem integrar raciocínio multimodal com geração precisa de ações. No entanto, os modelos existentes de visão-linguagem-ação (VLA) frequentemente sacrificam um pelo outro, limitam suas habilidades a dados de manipulação específicos de tarefas e sofrem de esquecimento catastrófico das capacidades pré-treinadas de visão-linguagem. Para preencher essa lacuna, introduzimos o InstructVLA, um modelo VLA de ponta a ponta que preserva o raciocínio flexível de grandes modelos de visão-linguagem (VLMs) enquanto oferece desempenho líder em manipulação. O InstructVLA introduz um novo paradigma de treinamento, o Ajuste de Instrução de Visão-Linguagem-Ação (VLA-IT), que emprega treinamento multimodal com adaptação de mistura de especialistas para otimizar conjuntamente o raciocínio textual e a geração de ações em corpora padrão de VLMs e em um conjunto de dados VLA-IT curado com 650 mil amostras. Nas tarefas in-domain do SimplerEnv, o InstructVLA alcança uma melhoria de 30,5% em relação ao SpatialVLA. Para avaliar a generalização, introduzimos o SimplerEnv-Instruct, um benchmark de 80 tarefas que requer controle em malha fechada e compreensão de instruções de alto nível, onde ele supera um OpenVLA ajustado em 92% e um especialista em ação auxiliado por GPT-4o em 29%. Além disso, o InstructVLA supera os VLMs de linha de base em tarefas multimodais e exibe escalabilidade em tempo de inferência ao aproveitar o raciocínio textual para impulsionar o desempenho de manipulação tanto em ambientes simulados quanto no mundo real. Esses resultados demonstram o potencial do InstructVLA para unir interação humano-robô intuitiva e controlável com aprendizado eficiente de políticas.
English
To operate effectively in the real world, robots must integrate multimodal reasoning with precise action generation. However, existing vision-language-action (VLA) models often sacrifice one for the other, narrow their abilities to task-specific manipulation data, and suffer catastrophic forgetting of pre-trained vision-language capabilities. To bridge this gap, we introduce InstructVLA, an end-to-end VLA model that preserves the flexible reasoning of large vision-language models (VLMs) while delivering leading manipulation performance. InstructVLA introduces a novel training paradigm, Vision-Language-Action Instruction Tuning (VLA-IT), which employs multimodal training with mixture-of-experts adaptation to jointly optimize textual reasoning and action generation on both standard VLM corpora and a curated 650K-sample VLA-IT dataset. On in-domain SimplerEnv tasks, InstructVLA achieves 30.5% improvement over SpatialVLA. To evaluate generalization, we introduce SimplerEnv-Instruct, an 80-task benchmark requiring closed-loop control and high-level instruction understanding, where it outperforms a fine-tuned OpenVLA by 92% and an action expert aided by GPT-4o by 29%. Additionally, InstructVLA surpasses baseline VLMs on multimodal tasks and exhibits inference-time scaling by leveraging textual reasoning to boost manipulation performance in both simulated and real-world settings. These results demonstrate InstructVLA's potential for bridging intuitive and steerable human-robot interaction with efficient policy learning.
PDF141August 5, 2025