ChatPaper.aiChatPaper

AffordanceVLA: アフォーダンス認識理解を通じて行動生成を促進する視覚-言語-行動モデル

AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

June 4, 2026
著者: Qize Yu, Jiadi You, Yuran Wang, Jiaqi Liang, Bowen Ping, Yang Tian, Yue Chen, Minghong Cai, Zeying Gong, Ruihai Wu, Yinchuan Li, Junwei Liang, Yingcong Chen
cs.AI

要旨

ビジョン・ランゲージ・アクション(VLA)モデルは、事前学習済みのビジョン・ランゲージモデル(VLM)が持つ豊富な世界知識を活用し、指示に従ったロボット操作を実現する。しかしながら、VLMの意味空間と身体化された制御方策との間の構造的不一致により、精密な知覚-行動マッピングの学習がしばしば妨げられる。この課題に対処するため、我々はAffordanceVLAを提案する。これは、構造化されたアフォーダンス予測をタスク指向の中間表現として導入し、より精密かつロバストな知覚-行動マッピングを確立する統合フレームワークである。具体的には、以下の3つの相補的構成要素を通じて、操作の事前知識を段階的にモデル化する。1)Which2Act:視覚的潜在変数の予測によるオブジェクト中心の接地を行い、外乱を抑制する。2)Where2Act:アフォーダンスマップ推定による2次元インタラクション位置特定を行う。3)How2Act:操作方策を導くための3次元幾何学的推論を行う。これらのアフォーダンス手がかりは、空間的に接地され、意味的に条件づけられ、行動と結合された中間表現を提供し、それによりビジョン、言語、行動を自然に橋渡しする。我々はこれらのモジュールを、専門家モジュールを備えたMixture-of-Transformer(MoT)アーキテクチャに統合し、段階的データカリキュラムを用いた3段階の学習戦略でモデルを訓練する。また、ロボットデータセットにおける高密度アフォーダンスラベルの不足を克服するため、堅牢な自動データ拡張パイプラインも開発する。シミュレーションおよび実世界における広範な実験により、AffordanceVLAが多様な操作シナリオにおいて優れた性能を達成することを実証する。
English
Vision-Language-Action (VLA) models leverage the rich world knowledge of pretrained vision-language models (VLMs) to enable instruction-following robotic manipulation. However, the structural mismatch between VLM semantic spaces and embodied control policies often hinders the learning of precise perception--action mappings. To address this challenge, we propose AffordanceVLA, a unified framework that introduces structured affordance forecasting as a task-oriented intermediate representation to establish a more precise and robust perception--action mapping. Specifically, we progressively model manipulation priors through three complementary components: 1) Which2Act for object-centric grounding via visual latent prediction to suppress distractions; 2) Where2Act for 2D interaction localization via affordance map estimation; and 3) How2Act for 3D geometric reasoning to guide manipulation policies. These affordance cues provide spatially grounded, semantically conditioned, and action-coupled intermediate representations, thereby naturally bridging vision, language and action. We integrate these modules into a Mixture-of-Transformer (MoT) architecture with specialized experts and train the model using a three-stage training strategy with a progressive data curriculum. To overcome the scarcity of dense affordance labels in robotic datasets, we also develop a robust automated data augmentation pipeline. Extensive experiments on simulation and real-world demonstrate that AffordanceVLA achieves strong performance across diverse manipulation scenarios.