AffordanceVLA: Um Modelo Visão-Linguagem-Ação que Capacita a Geração de Ações por meio da Compreensão Consciente de Affordances

Resumo

Modelos Visão-Linguagem-Ação (VLA) aproveitam o rico conhecimento de mundo de modelos de visão-linguagem pré-treinados (VLMs) para possibilitar a manipulação robótica com instruções. No entanto, o desalinhamento estrutural entre os espaços semânticos dos VLMs e as políticas de controle incorporado frequentemente dificulta o aprendizado de mapeamentos precisos entre percepção e ação. Para enfrentar esse desafio, propomos o AffordanceVLA, uma estrutura unificada que introduz a previsão estruturada de affordances como uma representação intermediária orientada a tarefas, estabelecendo um mapeamento percepção-ação mais preciso e robusto. Especificamente, modelamos progressivamente os priores de manipulação por meio de três componentes complementares: 1) Which2Act, para ancoragem centrada no objeto por meio da predição latente visual, a fim de suprimir distrações; 2) Where2Act, para localização de interação 2D via estimativa do mapa de affordances; e 3) How2Act, para raciocínio geométrico 3D que orienta as políticas de manipulação. Essas dicas de affordances fornecem representações intermediárias espacialmente fundamentadas, semanticamente condicionadas e acopladas à ação, conectando de forma natural visão, linguagem e ação. Integramos esses módulos em uma arquitetura Mixture-of-Transformer (MoT) com especialistas dedicados e treinamos o modelo usando uma estratégia de treinamento em três estágios com um currículo progressivo de dados. Para superar a escassez de rótulos densos de affordances em conjuntos de dados robóticos, também desenvolvemos um pipeline robusto e automatizado de aumento de dados. Experimentos extensivos em simulação e no mundo real demonstram que o AffordanceVLA alcança desempenho sólido em diversos cenários de manipulação.

English

Vision-Language-Action (VLA) models leverage the rich world knowledge of pretrained vision-language models (VLMs) to enable instruction-following robotic manipulation. However, the structural mismatch between VLM semantic spaces and embodied control policies often hinders the learning of precise perception--action mappings. To address this challenge, we propose AffordanceVLA, a unified framework that introduces structured affordance forecasting as a task-oriented intermediate representation to establish a more precise and robust perception--action mapping. Specifically, we progressively model manipulation priors through three complementary components: 1) Which2Act for object-centric grounding via visual latent prediction to suppress distractions; 2) Where2Act for 2D interaction localization via affordance map estimation; and 3) How2Act for 3D geometric reasoning to guide manipulation policies. These affordance cues provide spatially grounded, semantically conditioned, and action-coupled intermediate representations, thereby naturally bridging vision, language and action. We integrate these modules into a Mixture-of-Transformer (MoT) architecture with specialized experts and train the model using a three-stage training strategy with a progressive data curriculum. To overcome the scarcity of dense affordance labels in robotic datasets, we also develop a robust automated data augmentation pipeline. Extensive experiments on simulation and real-world demonstrate that AffordanceVLA achieves strong performance across diverse manipulation scenarios.