X-VLA : Transformer à amorçage doux comme modèle vision-langage-action évolutif et trans-embodiment
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
October 11, 2025
papers.authors: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan
cs.AI
papers.abstract
Les modèles généralistes réussis de Vision-Langage-Action (VLA) reposent sur un entraînement efficace à travers diverses plateformes robotiques avec des ensembles de données hétérogènes, à grande échelle et inter-embodiment. Pour faciliter et exploiter l'hétérogénéité des sources de données robotiques riches et variées, nous proposons une nouvelle approche de Soft Prompt avec un nombre minimal de paramètres ajoutés, en intégrant les concepts d'apprentissage par prompt dans l'apprentissage robotique inter-embodiment et en introduisant des ensembles distincts d'embeddings apprenables pour chaque source de données distincte. Ces embeddings servent de prompts spécifiques à l'embodiment, qui, ensemble, permettent aux modèles VLA d'exploiter efficacement les caractéristiques variées inter-embodiment. Notre nouveau X-VLA, une architecture VLA basée sur le flow-matching, repose exclusivement sur des encodeurs Transformer standard avec soft-prompt, bénéficiant à la fois de l'évolutivité et de la simplicité. Évalué sur 6 simulations ainsi que 3 robots réels, notre instanciation de 0.9B, X-VLA-0.9B, atteint simultanément des performances de pointe sur une série de benchmarks, démontrant des résultats supérieurs sur un large éventail de capacités, de la dextérité flexible à l'adaptation rapide entre embodiments, environnements et tâches. Site web : https://thu-air-dream.github.io/X-VLA/
English
Successful generalist Vision-Language-Action (VLA) models rely on effective
training across diverse robotic platforms with large-scale, cross-embodiment,
heterogeneous datasets. To facilitate and leverage the heterogeneity in rich,
diverse robotic data sources, we propose a novel Soft Prompt approach with
minimally added parameters, by infusing prompt learning concepts into
cross-embodiment robot learning and introducing separate sets of learnable
embeddings for each distinct data source. These embeddings serve as
embodiment-specific prompts, which in unity empower VLA models with effective
exploitation of varying cross-embodiment features. Our new X-VLA, a neat
flow-matching-based VLA architecture, relies exclusively on soft-prompted
standard Transformer encoders, enjoying both scalability and simplicity.
Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B
instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep
of benchmarks, demonstrating superior results on a wide axes of capabilities,
from flexible dexterity to quick adaptation across embodiments, environments,
and tasks. Website: https://thu-air-dream.github.io/X-VLA/