De l'intention à l'exécution : explorer les limites de la généralisation des modèles vision-langage-action
From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models
June 11, 2025
Auteurs: Irving Fang, Juexiao Zhang, Shengbang Tong, Chen Feng
cs.AI
Résumé
Une promesse que les modèles Vision-Langage-Action (VLA) offrent par rapport à l'apprentissage par imitation traditionnel en robotique est de tirer parti des vastes capacités de généralisation des grands modèles Vision-Langage (VLM) pour produire des politiques robotiques polyvalentes et "généralistes". Cependant, les évaluations actuelles des VLA restent insuffisantes. Les benchmarks traditionnels d'apprentissage par imitation ne sont pas adaptés en raison de l'absence d'instructions langagières. Les benchmarks émergents pour les VLA qui intègrent le langage sont souvent limités en termes de tâches d'évaluation et ne visent pas à étudier dans quelle mesure le pré-entraînement des VLM contribue réellement aux capacités de généralisation de la politique robotique en aval. Par ailleurs, une grande partie de la recherche repose sur des configurations robotiques réelles conçues de manière isolée par différentes institutions, ce qui crée un obstacle à la reproductibilité et à l'accessibilité. Pour combler cette lacune, nous introduisons une suite de tests unifiée composée de 50 tâches basées sur la simulation, réparties en 10 sous-catégories couvrant les instructions langagières, la vision et les objets. Nous évaluons systématiquement plusieurs architectures VLA de pointe sur cette suite afin de comprendre leur capacité de généralisation. Nos résultats montrent que si les architectures VLM confèrent aux VLA une compréhension perceptuelle robuste et une planification de haut niveau, que nous qualifions de "bonnes intentions", cela ne se traduit pas de manière fiable en une exécution motrice précise : face à des observations hors distribution, les politiques affichent souvent des intentions cohérentes, mais échouent dans l'exécution des actions. De plus, le fine-tuning sur des données d'action peut éroder les capacités de raisonnement généraliste du VLM d'origine. Nous publions notre suite de tâches et notre code d'évaluation pour servir de benchmark standardisé pour les futurs VLA et pour stimuler la recherche sur la réduction de l'écart entre la perception et l'action. Plus d'informations, y compris le code source, sont disponibles à l'adresse https://ai4ce.github.io/INT-ACT/.
English
One promise that Vision-Language-Action (VLA) models hold over traditional
imitation learning for robotics is to leverage the broad generalization
capabilities of large Vision-Language Models (VLMs) to produce versatile,
"generalist" robot policies. However, current evaluations of VLAs remain
insufficient. Traditional imitation learning benchmarks are unsuitable due to
the lack of language instructions. Emerging benchmarks for VLAs that
incorporate language often come with limited evaluation tasks and do not intend
to investigate how much VLM pretraining truly contributes to the generalization
capabilities of the downstream robotic policy. Meanwhile, much research relies
on real-world robot setups designed in isolation by different institutions,
which creates a barrier for reproducibility and accessibility. To address this
gap, we introduce a unified probing suite of 50 simulation-based tasks across
10 subcategories spanning language instruction, vision, and objects. We
systematically evaluate several state-of-the-art VLA architectures on this
suite to understand their generalization capability. Our results show that
while VLM backbones endow VLAs with robust perceptual understanding and high
level planning, which we refer to as good intentions, this does not reliably
translate into precise motor execution: when faced with out-of-distribution
observations, policies often exhibit coherent intentions, but falter in action
execution. Moreover, finetuning on action data can erode the original VLM's
generalist reasoning abilities. We release our task suite and evaluation code
to serve as a standardized benchmark for future VLAs and to drive research on
closing the perception-to-action gap. More information, including the source
code, can be found at https://ai4ce.github.io/INT-ACT/