ChatPaper.aiChatPaper

От намерения к исполнению: исследование границ обобщения в моделях "зрение-язык-действие"

From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

June 11, 2025
Авторы: Irving Fang, Juexiao Zhang, Shengbang Tong, Chen Feng
cs.AI

Аннотация

Одним из преимуществ моделей Vision-Language-Action (VLA) перед традиционным обучением с подражанием в робототехнике является возможность использовать широкие обобщающие способности крупных Vision-Language Models (VLM) для создания универсальных, "универсальных" политик для роботов. Однако текущие оценки VLA остаются недостаточными. Традиционные бенчмарки для обучения с подражанием непригодны из-за отсутствия языковых инструкций. Новые бенчмарки для VLA, включающие язык, часто ограничены в задачах для оценки и не предназначены для изучения того, насколько предварительное обучение VLM действительно способствует обобщающим способностям конечной политики робота. В то же время многие исследования опираются на реальные роботизированные установки, разработанные изолированно разными учреждениями, что создает барьеры для воспроизводимости и доступности. Чтобы устранить этот пробел, мы представляем унифицированный набор из 50 задач на основе симуляции, охватывающих 10 подкатегорий, включая языковые инструкции, зрение и объекты. Мы систематически оцениваем несколько современных архитектур VLA на этом наборе, чтобы понять их способность к обобщению. Наши результаты показывают, что хотя базовые VLM наделяют VLA устойчивым восприятием и высокоуровневым планированием, что мы называем "хорошими намерениями", это не всегда надежно переводится в точное моторное исполнение: при столкновении с наблюдениями, выходящими за пределы распределения, политики часто демонстрируют согласованные намерения, но терпят неудачу в исполнении действий. Более того, дообучение на данных о действиях может ухудшить изначальные универсальные способности VLM к рассуждению. Мы публикуем наш набор задач и код для оценки в качестве стандартного бенчмарка для будущих VLA и для стимулирования исследований, направленных на устранение разрыва между восприятием и действием. Дополнительная информация, включая исходный код, доступна по адресу https://ai4ce.github.io/INT-ACT/.
English
One promise that Vision-Language-Action (VLA) models hold over traditional imitation learning for robotics is to leverage the broad generalization capabilities of large Vision-Language Models (VLMs) to produce versatile, "generalist" robot policies. However, current evaluations of VLAs remain insufficient. Traditional imitation learning benchmarks are unsuitable due to the lack of language instructions. Emerging benchmarks for VLAs that incorporate language often come with limited evaluation tasks and do not intend to investigate how much VLM pretraining truly contributes to the generalization capabilities of the downstream robotic policy. Meanwhile, much research relies on real-world robot setups designed in isolation by different institutions, which creates a barrier for reproducibility and accessibility. To address this gap, we introduce a unified probing suite of 50 simulation-based tasks across 10 subcategories spanning language instruction, vision, and objects. We systematically evaluate several state-of-the-art VLA architectures on this suite to understand their generalization capability. Our results show that while VLM backbones endow VLAs with robust perceptual understanding and high level planning, which we refer to as good intentions, this does not reliably translate into precise motor execution: when faced with out-of-distribution observations, policies often exhibit coherent intentions, but falter in action execution. Moreover, finetuning on action data can erode the original VLM's generalist reasoning abilities. We release our task suite and evaluation code to serve as a standardized benchmark for future VLAs and to drive research on closing the perception-to-action gap. More information, including the source code, can be found at https://ai4ce.github.io/INT-ACT/
PDF52June 23, 2025