AffordanceVLA: Un modelo Visión-Lenguaje-Acción que potencia la generación de acciones mediante una comprensión consciente de las affordances

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) aprovechan el rico conocimiento del mundo de los modelos de visión-lenguaje preentrenados (VLM) para habilitar la manipulación robótica guiada por instrucciones. Sin embargo, el desajuste estructural entre los espacios semánticos de los VLM y las políticas de control encarnado a menudo dificulta el aprendizaje de asignaciones precisas percepción-acción. Para abordar este desafío, proponemos AffordanceVLA, un marco unificado que introduce la predicción estructurada de affordances como una representación intermedia orientada a tareas para establecer una asignación percepción-acción más precisa y robusta. Específicamente, modelamos progresivamente los priors de manipulación a través de tres componentes complementarios: 1) Which2Act para el anclaje centrado en objetos mediante predicción latente visual, con el fin de suprimir distracciones; 2) Where2Act para la localización de interacciones en 2D a través de la estimación de mapas de affordances; y 3) How2Act para el razonamiento geométrico en 3D que guíe las políticas de manipulación. Estas señales de affordance proporcionan representaciones intermedias espacialmente fundamentadas, semánticamente condicionadas y acopladas a la acción, tendiendo así un puente natural entre visión, lenguaje y acción. Integramos estos módulos en una arquitectura de Mezcla de Transformers (MoT) con expertos especializados y entrenamos el modelo mediante una estrategia de entrenamiento en tres etapas con un currículo progresivo de datos. Para superar la escasez de etiquetas densas de affordance en conjuntos de datos robóticos, también desarrollamos un canal robusto de aumento de datos automatizado. Experimentos exhaustivos en simulación y en el mundo real demuestran que AffordanceVLA logra un rendimiento sólido en diversos escenarios de manipulación.

English

Vision-Language-Action (VLA) models leverage the rich world knowledge of pretrained vision-language models (VLMs) to enable instruction-following robotic manipulation. However, the structural mismatch between VLM semantic spaces and embodied control policies often hinders the learning of precise perception--action mappings. To address this challenge, we propose AffordanceVLA, a unified framework that introduces structured affordance forecasting as a task-oriented intermediate representation to establish a more precise and robust perception--action mapping. Specifically, we progressively model manipulation priors through three complementary components: 1) Which2Act for object-centric grounding via visual latent prediction to suppress distractions; 2) Where2Act for 2D interaction localization via affordance map estimation; and 3) How2Act for 3D geometric reasoning to guide manipulation policies. These affordance cues provide spatially grounded, semantically conditioned, and action-coupled intermediate representations, thereby naturally bridging vision, language and action. We integrate these modules into a Mixture-of-Transformer (MoT) architecture with specialized experts and train the model using a three-stage training strategy with a progressive data curriculum. To overcome the scarcity of dense affordance labels in robotic datasets, we also develop a robust automated data augmentation pipeline. Extensive experiments on simulation and real-world demonstrate that AffordanceVLA achieves strong performance across diverse manipulation scenarios.