ChatPaper.aiChatPaper

InstructVLA: Ajuste de Instrucciones Visión-Lenguaje-Acción desde la Comprensión hasta la Manipulación

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

July 23, 2025
Autores: Shuai Yang, Hao Li, Yilun Chen, Bin Wang, Yang Tian, Tai Wang, Hanqing Wang, Feng Zhao, Yiyi Liao, Jiangmiao Pang
cs.AI

Resumen

Para operar eficazmente en el mundo real, los robots deben integrar el razonamiento multimodal con la generación precisa de acciones. Sin embargo, los modelos existentes de visión-lenguaje-acción (VLA) a menudo sacrifican uno por el otro, limitan sus capacidades a datos de manipulación específicos de tareas y sufren un olvido catastrófico de las capacidades preentrenadas de visión-lenguaje. Para cerrar esta brecha, presentamos InstructVLA, un modelo VLA de extremo a extremo que preserva el razonamiento flexible de los grandes modelos de visión-lenguaje (VLM) mientras ofrece un rendimiento líder en manipulación. InstructVLA introduce un nuevo paradigma de entrenamiento, el Ajuste por Instrucción de Visión-Lenguaje-Acción (VLA-IT), que emplea entrenamiento multimodal con adaptación de mezcla de expertos para optimizar conjuntamente el razonamiento textual y la generación de acciones tanto en corpus estándar de VLM como en un conjunto de datos VLA-IT curado de 650K muestras. En tareas de SimplerEnv dentro del dominio, InstructVLA logra una mejora del 30.5% sobre SpatialVLA. Para evaluar la generalización, presentamos SimplerEnv-Instruct, un benchmark de 80 tareas que requiere control en bucle cerrado y comprensión de instrucciones de alto nivel, donde supera a un OpenVLA ajustado por un 92% y a un experto en acciones asistido por GPT-4o por un 29%. Además, InstructVLA supera a los VLM de referencia en tareas multimodales y exhibe escalado en tiempo de inferencia al aprovechar el razonamiento textual para mejorar el rendimiento en manipulación tanto en entornos simulados como en el mundo real. Estos resultados demuestran el potencial de InstructVLA para conectar la interacción humano-robot intuitiva y dirigible con el aprendizaje eficiente de políticas.
English
To operate effectively in the real world, robots must integrate multimodal reasoning with precise action generation. However, existing vision-language-action (VLA) models often sacrifice one for the other, narrow their abilities to task-specific manipulation data, and suffer catastrophic forgetting of pre-trained vision-language capabilities. To bridge this gap, we introduce InstructVLA, an end-to-end VLA model that preserves the flexible reasoning of large vision-language models (VLMs) while delivering leading manipulation performance. InstructVLA introduces a novel training paradigm, Vision-Language-Action Instruction Tuning (VLA-IT), which employs multimodal training with mixture-of-experts adaptation to jointly optimize textual reasoning and action generation on both standard VLM corpora and a curated 650K-sample VLA-IT dataset. On in-domain SimplerEnv tasks, InstructVLA achieves 30.5% improvement over SpatialVLA. To evaluate generalization, we introduce SimplerEnv-Instruct, an 80-task benchmark requiring closed-loop control and high-level instruction understanding, where it outperforms a fine-tuned OpenVLA by 92% and an action expert aided by GPT-4o by 29%. Additionally, InstructVLA surpasses baseline VLMs on multimodal tasks and exhibits inference-time scaling by leveraging textual reasoning to boost manipulation performance in both simulated and real-world settings. These results demonstrate InstructVLA's potential for bridging intuitive and steerable human-robot interaction with efficient policy learning.
PDF121August 5, 2025