AffordanceVLA: 어포던스 인지 이해를 통해 행동 생성을 가능하게 하는 비전-언어-행동 모델
AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding
June 4, 2026
저자: Qize Yu, Jiadi You, Yuran Wang, Jiaqi Liang, Bowen Ping, Yang Tian, Yue Chen, Minghong Cai, Zeying Gong, Ruihai Wu, Yinchuan Li, Junwei Liang, Yingcong Chen
cs.AI
초록
비전-언어-행동(VLA) 모델은 사전 훈련된 비전-언어 모델(VLM)의 풍부한 세계 지식을 활용하여 명령 기반 로봇 조작을 가능하게 한다. 그러나 VLM의 의미 공간과 구현된 제어 정책 간의 구조적 불일치는 종종 정밀한 지각-행동 매핑 학습을 저해한다. 이러한 문제를 해결하기 위해, 본 논문에서는 구조화된 어포던스 예측을 과제 지향적 중간 표현으로 도입하여 보다 정밀하고 강건한 지각-행동 매핑을 구축하는 통합 프레임워크인 AffordanceVLA를 제안한다. 구체적으로, 세 가지 상호 보완적 구성 요소를 통해 조작 사전 지식을 점진적으로 모델링한다: 1) 시각적 잠재 예측을 통한 객체 중심 정합(Which2Act)으로 방해 요소 억제, 2) 어포던스 맵 추정을 통한 2차원 상호작용 위치 파악(Where2Act), 3) 조작 정책을 안내하는 3차원 기하 추론(How2Act). 이러한 어포던스 단서는 공간적으로 기반을 두고 의미적으로 조건화되며 행동과 결합된 중간 표현을 제공함으로써 비전, 언어, 행동을 자연스럽게 연결한다. 본 연구는 이러한 모듈들을 전문가가 특화된 트랜스포머 혼합(MoT) 아키텍처에 통합하고, 점진적 데이터 커리큘럼을 포함한 3단계 훈련 전략을 사용하여 모델을 학습시킨다. 또한 로봇 데이터셋에서 조밀한 어포던스 레이블의 부족 문제를 극복하기 위해 강건한 자동 데이터 증강 파이프라인을 개발한다. 시뮬레이션 및 실제 환경에서의 광범위한 실험을 통해 AffordanceVLA가 다양한 조작 시나리오에서 강력한 성능을 달성함을 입증한다.
English
Vision-Language-Action (VLA) models leverage the rich world knowledge of pretrained vision-language models (VLMs) to enable instruction-following robotic manipulation. However, the structural mismatch between VLM semantic spaces and embodied control policies often hinders the learning of precise perception--action mappings. To address this challenge, we propose AffordanceVLA, a unified framework that introduces structured affordance forecasting as a task-oriented intermediate representation to establish a more precise and robust perception--action mapping. Specifically, we progressively model manipulation priors through three complementary components: 1) Which2Act for object-centric grounding via visual latent prediction to suppress distractions; 2) Where2Act for 2D interaction localization via affordance map estimation; and 3) How2Act for 3D geometric reasoning to guide manipulation policies. These affordance cues provide spatially grounded, semantically conditioned, and action-coupled intermediate representations, thereby naturally bridging vision, language and action. We integrate these modules into a Mixture-of-Transformer (MoT) architecture with specialized experts and train the model using a three-stage training strategy with a progressive data curriculum. To overcome the scarcity of dense affordance labels in robotic datasets, we also develop a robust automated data augmentation pipeline. Extensive experiments on simulation and real-world demonstrate that AffordanceVLA achieves strong performance across diverse manipulation scenarios.