ChatPaper.aiChatPaper

Da Intenção à Execução: Explorando os Limites de Generalização de Modelos Visão-Linguagem-Ação

From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

June 11, 2025
Autores: Irving Fang, Juexiao Zhang, Shengbang Tong, Chen Feng
cs.AI

Resumo

Uma promessa que os modelos Visão-Linguagem-Ação (VLA) oferecem em relação ao aprendizado por imitação tradicional para robótica é a capacidade de aproveitar as amplas habilidades de generalização dos grandes modelos de Visão-Linguagem (VLMs) para produzir políticas robóticas versáteis e "generalistas". No entanto, as avaliações atuais dos VLAs permanecem insuficientes. Os benchmarks tradicionais de aprendizado por imitação são inadequados devido à falta de instruções linguísticas. Os benchmarks emergentes para VLAs que incorporam linguagem frequentemente vêm com tarefas de avaliação limitadas e não têm a intenção de investigar quanto o pré-treinamento de VLMs realmente contribui para as capacidades de generalização da política robótica subsequente. Enquanto isso, grande parte da pesquisa depende de configurações de robôs no mundo real projetadas isoladamente por diferentes instituições, o que cria uma barreira para a reprodutibilidade e acessibilidade. Para abordar essa lacuna, introduzimos um conjunto unificado de 50 tarefas baseadas em simulação, abrangendo 10 subcategorias que incluem instruções linguísticas, visão e objetos. Avaliamos sistematicamente várias arquiteturas de VLA state-of-the-art nesse conjunto para entender sua capacidade de generalização. Nossos resultados mostram que, embora os backbones de VLMs dotem os VLAs com uma compreensão perceptual robusta e planejamento de alto nível, que chamamos de boas intenções, isso não se traduz de forma confiável em execução motora precisa: quando confrontadas com observações fora da distribuição, as políticas frequentemente exibem intenções coerentes, mas falham na execução das ações. Além disso, o ajuste fino em dados de ação pode corroer as habilidades de raciocínio generalista do VLM original. Disponibilizamos nosso conjunto de tarefas e código de avaliação para servir como um benchmark padronizado para futuros VLAs e para impulsionar pesquisas sobre o fechamento da lacuna entre percepção e ação. Mais informações, incluindo o código-fonte, podem ser encontradas em https://ai4ce.github.io/INT-ACT/.
English
One promise that Vision-Language-Action (VLA) models hold over traditional imitation learning for robotics is to leverage the broad generalization capabilities of large Vision-Language Models (VLMs) to produce versatile, "generalist" robot policies. However, current evaluations of VLAs remain insufficient. Traditional imitation learning benchmarks are unsuitable due to the lack of language instructions. Emerging benchmarks for VLAs that incorporate language often come with limited evaluation tasks and do not intend to investigate how much VLM pretraining truly contributes to the generalization capabilities of the downstream robotic policy. Meanwhile, much research relies on real-world robot setups designed in isolation by different institutions, which creates a barrier for reproducibility and accessibility. To address this gap, we introduce a unified probing suite of 50 simulation-based tasks across 10 subcategories spanning language instruction, vision, and objects. We systematically evaluate several state-of-the-art VLA architectures on this suite to understand their generalization capability. Our results show that while VLM backbones endow VLAs with robust perceptual understanding and high level planning, which we refer to as good intentions, this does not reliably translate into precise motor execution: when faced with out-of-distribution observations, policies often exhibit coherent intentions, but falter in action execution. Moreover, finetuning on action data can erode the original VLM's generalist reasoning abilities. We release our task suite and evaluation code to serve as a standardized benchmark for future VLAs and to drive research on closing the perception-to-action gap. More information, including the source code, can be found at https://ai4ce.github.io/INT-ACT/
PDF82June 23, 2025