De la intención a la ejecución: Explorando los límites de generalización de los modelos visión-lenguaje-acción

Resumen

Una promesa que los modelos Visión-Lenguaje-Acción (VLA) ofrecen sobre el aprendizaje por imitación tradicional en robótica es aprovechar las amplias capacidades de generalización de los grandes modelos de Visión-Lenguaje (VLM) para producir políticas robóticas versátiles y "generalistas". Sin embargo, las evaluaciones actuales de los VLA siguen siendo insuficientes. Los puntos de referencia tradicionales del aprendizaje por imitación no son adecuados debido a la falta de instrucciones de lenguaje. Los nuevos puntos de referencia para los VLA que incorporan lenguaje suelen venir con tareas de evaluación limitadas y no pretenden investigar cuánto contribuye realmente el preentrenamiento de los VLM a las capacidades de generalización de la política robótica resultante. Mientras tanto, gran parte de la investigación se basa en configuraciones de robots del mundo real diseñadas de forma aislada por diferentes instituciones, lo que crea una barrera para la reproducibilidad y accesibilidad. Para abordar esta brecha, presentamos un conjunto unificado de 50 tareas basadas en simulación, distribuidas en 10 subcategorías que abarcan instrucciones de lenguaje, visión y objetos. Evaluamos sistemáticamente varias arquitecturas VLA de última generación en este conjunto para comprender su capacidad de generalización. Nuestros resultados muestran que, aunque los modelos base VLM dotan a los VLA de una comprensión perceptual robusta y una planificación de alto nivel, a lo que nos referimos como buenas intenciones, esto no se traduce de manera confiable en una ejecución motora precisa: cuando se enfrentan a observaciones fuera de distribución, las políticas suelen exhibir intenciones coherentes, pero fallan en la ejecución de acciones. Además, el ajuste fino con datos de acción puede erosionar las habilidades de razonamiento generalista del VLM original. Publicamos nuestro conjunto de tareas y el código de evaluación para servir como un punto de referencia estandarizado para futuros VLA y para impulsar la investigación en cerrar la brecha entre percepción y acción. Más información, incluido el código fuente, se puede encontrar en https://ai4ce.github.io/INT-ACT/.

English

One promise that Vision-Language-Action (VLA) models hold over traditional imitation learning for robotics is to leverage the broad generalization capabilities of large Vision-Language Models (VLMs) to produce versatile, "generalist" robot policies. However, current evaluations of VLAs remain insufficient. Traditional imitation learning benchmarks are unsuitable due to the lack of language instructions. Emerging benchmarks for VLAs that incorporate language often come with limited evaluation tasks and do not intend to investigate how much VLM pretraining truly contributes to the generalization capabilities of the downstream robotic policy. Meanwhile, much research relies on real-world robot setups designed in isolation by different institutions, which creates a barrier for reproducibility and accessibility. To address this gap, we introduce a unified probing suite of 50 simulation-based tasks across 10 subcategories spanning language instruction, vision, and objects. We systematically evaluate several state-of-the-art VLA architectures on this suite to understand their generalization capability. Our results show that while VLM backbones endow VLAs with robust perceptual understanding and high level planning, which we refer to as good intentions, this does not reliably translate into precise motor execution: when faced with out-of-distribution observations, policies often exhibit coherent intentions, but falter in action execution. Moreover, finetuning on action data can erode the original VLM's generalist reasoning abilities. We release our task suite and evaluation code to serve as a standardized benchmark for future VLAs and to drive research on closing the perception-to-action gap. More information, including the source code, can be found at https://ai4ce.github.io/INT-ACT/

De la intención a la ejecución: Explorando los límites de generalización de los modelos visión-lenguaje-acción

From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

Resumen

Support