De la intención a la ejecución: Explorando los límites de generalización de los modelos visión-lenguaje-acción
From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models
June 11, 2025
Autores: Irving Fang, Juexiao Zhang, Shengbang Tong, Chen Feng
cs.AI
Resumen
Una promesa que los modelos Visión-Lenguaje-Acción (VLA) ofrecen sobre el aprendizaje por imitación tradicional en robótica es aprovechar las amplias capacidades de generalización de los grandes modelos de Visión-Lenguaje (VLM) para producir políticas robóticas versátiles y "generalistas". Sin embargo, las evaluaciones actuales de los VLA siguen siendo insuficientes. Los puntos de referencia tradicionales del aprendizaje por imitación no son adecuados debido a la falta de instrucciones de lenguaje. Los nuevos puntos de referencia para los VLA que incorporan lenguaje suelen venir con tareas de evaluación limitadas y no pretenden investigar cuánto contribuye realmente el preentrenamiento de los VLM a las capacidades de generalización de la política robótica resultante. Mientras tanto, gran parte de la investigación se basa en configuraciones de robots del mundo real diseñadas de forma aislada por diferentes instituciones, lo que crea una barrera para la reproducibilidad y accesibilidad. Para abordar esta brecha, presentamos un conjunto unificado de 50 tareas basadas en simulación, distribuidas en 10 subcategorías que abarcan instrucciones de lenguaje, visión y objetos. Evaluamos sistemáticamente varias arquitecturas VLA de última generación en este conjunto para comprender su capacidad de generalización. Nuestros resultados muestran que, aunque los modelos base VLM dotan a los VLA de una comprensión perceptual robusta y una planificación de alto nivel, a lo que nos referimos como buenas intenciones, esto no se traduce de manera confiable en una ejecución motora precisa: cuando se enfrentan a observaciones fuera de distribución, las políticas suelen exhibir intenciones coherentes, pero fallan en la ejecución de acciones. Además, el ajuste fino con datos de acción puede erosionar las habilidades de razonamiento generalista del VLM original. Publicamos nuestro conjunto de tareas y el código de evaluación para servir como un punto de referencia estandarizado para futuros VLA y para impulsar la investigación en cerrar la brecha entre percepción y acción. Más información, incluido el código fuente, se puede encontrar en https://ai4ce.github.io/INT-ACT/.
English
One promise that Vision-Language-Action (VLA) models hold over traditional
imitation learning for robotics is to leverage the broad generalization
capabilities of large Vision-Language Models (VLMs) to produce versatile,
"generalist" robot policies. However, current evaluations of VLAs remain
insufficient. Traditional imitation learning benchmarks are unsuitable due to
the lack of language instructions. Emerging benchmarks for VLAs that
incorporate language often come with limited evaluation tasks and do not intend
to investigate how much VLM pretraining truly contributes to the generalization
capabilities of the downstream robotic policy. Meanwhile, much research relies
on real-world robot setups designed in isolation by different institutions,
which creates a barrier for reproducibility and accessibility. To address this
gap, we introduce a unified probing suite of 50 simulation-based tasks across
10 subcategories spanning language instruction, vision, and objects. We
systematically evaluate several state-of-the-art VLA architectures on this
suite to understand their generalization capability. Our results show that
while VLM backbones endow VLAs with robust perceptual understanding and high
level planning, which we refer to as good intentions, this does not reliably
translate into precise motor execution: when faced with out-of-distribution
observations, policies often exhibit coherent intentions, but falter in action
execution. Moreover, finetuning on action data can erode the original VLM's
generalist reasoning abilities. We release our task suite and evaluation code
to serve as a standardized benchmark for future VLAs and to drive research on
closing the perception-to-action gap. More information, including the source
code, can be found at https://ai4ce.github.io/INT-ACT/