X-VLA: 확장 가능한 교차 구현체 비전-언어-행동 모델로서의 소프트 프롬프트 트랜스포머
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
October 11, 2025
저자: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan
cs.AI
초록
성공적인 일반주의 비전-언어-행동(Vision-Language-Action, VLA) 모델은 대규모의 교차 구현체(Cross-Embodiment) 및 이질적 데이터셋을 통해 다양한 로봇 플랫폼에서 효과적인 학습에 의존합니다. 우리는 풍부하고 다양한 로봇 데이터 소스의 이질성을 활용하고 촉진하기 위해, 최소한의 추가 파라미터로 새로운 소프트 프롬프트(Soft Prompt) 접근 방식을 제안합니다. 이를 위해 프롬프트 학습 개념을 교차 구현체 로봇 학습에 도입하고, 각각의 고유한 데이터 소스에 대해 별도의 학습 가능한 임베딩 세트를 도입합니다. 이러한 임베딩은 구현체별 프롬프트로 작용하며, 이를 통해 VLA 모델이 다양한 교차 구현체 특성을 효과적으로 활용할 수 있게 합니다. 우리의 새로운 X-VLA는 간결한 플로우 매칭(Flow-Matching) 기반 VLA 아키텍처로, 소프트 프롬프트가 적용된 표준 트랜스포머 인코더만을 사용하여 확장성과 단순성을 동시에 누립니다. 6개의 시뮬레이션과 3개의 실제 로봇에서 평가된 0.9B 규모의 X-VLA-0.9B는 다양한 벤치마크에서 최첨단(SOTA) 성능을 동시에 달성하며, 유연한 손재주부터 구현체, 환경, 작업 간의 빠른 적응에 이르기까지 광범위한 능력에서 우수한 결과를 보여줍니다. 웹사이트: https://thu-air-dream.github.io/X-VLA/
English
Successful generalist Vision-Language-Action (VLA) models rely on effective
training across diverse robotic platforms with large-scale, cross-embodiment,
heterogeneous datasets. To facilitate and leverage the heterogeneity in rich,
diverse robotic data sources, we propose a novel Soft Prompt approach with
minimally added parameters, by infusing prompt learning concepts into
cross-embodiment robot learning and introducing separate sets of learnable
embeddings for each distinct data source. These embeddings serve as
embodiment-specific prompts, which in unity empower VLA models with effective
exploitation of varying cross-embodiment features. Our new X-VLA, a neat
flow-matching-based VLA architecture, relies exclusively on soft-prompted
standard Transformer encoders, enjoying both scalability and simplicity.
Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B
instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep
of benchmarks, demonstrating superior results on a wide axes of capabilities,
from flexible dexterity to quick adaptation across embodiments, environments,
and tasks. Website: https://thu-air-dream.github.io/X-VLA/