AffordanceVLA: Модель «зрение-язык-действие», обеспечивающая генерацию действий на основе понимания аффордансов

Аннотация

Модели Vision-Language-Action (VLA) используют богатые знания о мире предварительно обученных моделей «видение‑язык» (VLM) для реализации манипуляций робота по инструкции. Однако структурное несоответствие между семантическими пространствами VLM и воплощёнными управляющими политиками часто затрудняет обучение точным отображениям «восприятие–действие». Для решения этой задачи мы предлагаем AffordanceVLA — единую структуру, которая вводит структурированное прогнозирование аффордансов в качестве целеориентированного промежуточного представления, устанавливая более точное и надёжное отображение между восприятием и действием. В частности, мы последовательно моделируем априорные знания о манипуляции через три взаимодополняющих компонента: 1) «Which2Act» — объектно-ориентированное обоснование с помощью визуального латентного предсказания для подавления отвлекающих факторов; 2) «Where2Act» — локализация 2D-взаимодействий через оценку карты аффордансов; 3) «How2Act» — трёхмерное геометрическое рассуждение для управления политиками манипуляции. Эти сигналы аффорданса предоставляют пространственно привязанные, семантически обусловленные и связанные с действием промежуточные представления, естественным образом соединяя видение, язык и действие. Мы интегрируем эти модули в архитектуру Mixture-of-Transformer (MoT) со специализированными экспертами и обучаем модель с помощью трёхэтапной стратегии обучения с прогрессивным дата-куррикулумом. Для преодоления нехватки плотных меток аффордансов в робототехнических наборах данных мы также разрабатываем надёжный автоматизированный конвейер дополнения данных. Многочисленные эксперименты на симуляторах и в реальном мире показывают, что AffordanceVLA достигает высокой производительности в различных сценариях манипуляции.

English

Vision-Language-Action (VLA) models leverage the rich world knowledge of pretrained vision-language models (VLMs) to enable instruction-following robotic manipulation. However, the structural mismatch between VLM semantic spaces and embodied control policies often hinders the learning of precise perception--action mappings. To address this challenge, we propose AffordanceVLA, a unified framework that introduces structured affordance forecasting as a task-oriented intermediate representation to establish a more precise and robust perception--action mapping. Specifically, we progressively model manipulation priors through three complementary components: 1) Which2Act for object-centric grounding via visual latent prediction to suppress distractions; 2) Where2Act for 2D interaction localization via affordance map estimation; and 3) How2Act for 3D geometric reasoning to guide manipulation policies. These affordance cues provide spatially grounded, semantically conditioned, and action-coupled intermediate representations, thereby naturally bridging vision, language and action. We integrate these modules into a Mixture-of-Transformer (MoT) architecture with specialized experts and train the model using a three-stage training strategy with a progressive data curriculum. To overcome the scarcity of dense affordance labels in robotic datasets, we also develop a robust automated data augmentation pipeline. Extensive experiments on simulation and real-world demonstrate that AffordanceVLA achieves strong performance across diverse manipulation scenarios.