AffordanceVLA : Un modèle Vision-Langage-Action permettant la génération d'actions grâce à une compréhension consciente des affordances

Résumé

Les modèles Vision-Langage-Action (VLA) exploitent la riche connaissance du monde des modèles vision-langage pré-entraînés (VLM) pour permettre la manipulation robotique suivant des instructions. Cependant, le décalage structurel entre les espaces sémantiques des VLM et les politiques de contrôle incarné entrave souvent l'apprentissage de correspondances précises perception-action. Pour relever ce défi, nous proposons AffordanceVLA, un cadre unifié qui introduit la prévision structurée d'affordance comme représentation intermédiaire orientée tâche afin d'établir une correspondance perception-action plus précise et robuste. Plus précisément, nous modélisons progressivement les a priori de manipulation à travers trois composants complémentaires : 1) Which2Act pour l'ancrage centré sur l'objet via la prédiction latente visuelle afin de supprimer les distractions ; 2) Where2Act pour la localisation d'interaction 2D via l'estimation de carte d'affordance ; et 3) How2Act pour le raisonnement géométrique 3D guidant les politiques de manipulation. Ces indices d'affordance fournissent des représentations intermédiaires spatialement ancrées, sémantiquement conditionnées et couplées aux actions, faisant ainsi naturellement le pont entre vision, langage et action. Nous intégrons ces modules dans une architecture Mixture-of-Transformers (MoT) avec des experts spécialisés et entraînons le modèle en trois étapes avec un curriculum de données progressif. Pour pallier le manque d'annotations d'affordance denses dans les ensembles de données robotiques, nous développons également un pipeline robuste d'augmentation automatique des données. Des expériences approfondies en simulation et dans le monde réel montrent qu'AffordanceVLA atteint des performances solides dans divers scénarios de manipulation.

English

Vision-Language-Action (VLA) models leverage the rich world knowledge of pretrained vision-language models (VLMs) to enable instruction-following robotic manipulation. However, the structural mismatch between VLM semantic spaces and embodied control policies often hinders the learning of precise perception--action mappings. To address this challenge, we propose AffordanceVLA, a unified framework that introduces structured affordance forecasting as a task-oriented intermediate representation to establish a more precise and robust perception--action mapping. Specifically, we progressively model manipulation priors through three complementary components: 1) Which2Act for object-centric grounding via visual latent prediction to suppress distractions; 2) Where2Act for 2D interaction localization via affordance map estimation; and 3) How2Act for 3D geometric reasoning to guide manipulation policies. These affordance cues provide spatially grounded, semantically conditioned, and action-coupled intermediate representations, thereby naturally bridging vision, language and action. We integrate these modules into a Mixture-of-Transformer (MoT) architecture with specialized experts and train the model using a three-stage training strategy with a progressive data curriculum. To overcome the scarcity of dense affordance labels in robotic datasets, we also develop a robust automated data augmentation pipeline. Extensive experiments on simulation and real-world demonstrate that AffordanceVLA achieves strong performance across diverse manipulation scenarios.