ChatPaper.aiChatPaper

X-VLA : Transformer à amorçage doux comme modèle vision-langage-action évolutif et trans-embodiment

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

October 11, 2025
papers.authors: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan
cs.AI

papers.abstract

Les modèles généralistes réussis de Vision-Langage-Action (VLA) reposent sur un entraînement efficace à travers diverses plateformes robotiques avec des ensembles de données hétérogènes, à grande échelle et inter-embodiment. Pour faciliter et exploiter l'hétérogénéité des sources de données robotiques riches et variées, nous proposons une nouvelle approche de Soft Prompt avec un nombre minimal de paramètres ajoutés, en intégrant les concepts d'apprentissage par prompt dans l'apprentissage robotique inter-embodiment et en introduisant des ensembles distincts d'embeddings apprenables pour chaque source de données distincte. Ces embeddings servent de prompts spécifiques à l'embodiment, qui, ensemble, permettent aux modèles VLA d'exploiter efficacement les caractéristiques variées inter-embodiment. Notre nouveau X-VLA, une architecture VLA basée sur le flow-matching, repose exclusivement sur des encodeurs Transformer standard avec soft-prompt, bénéficiant à la fois de l'évolutivité et de la simplicité. Évalué sur 6 simulations ainsi que 3 robots réels, notre instanciation de 0.9B, X-VLA-0.9B, atteint simultanément des performances de pointe sur une série de benchmarks, démontrant des résultats supérieurs sur un large éventail de capacités, de la dextérité flexible à l'adaptation rapide entre embodiments, environnements et tâches. Site web : https://thu-air-dream.github.io/X-VLA/
English
Successful generalist Vision-Language-Action (VLA) models rely on effective training across diverse robotic platforms with large-scale, cross-embodiment, heterogeneous datasets. To facilitate and leverage the heterogeneity in rich, diverse robotic data sources, we propose a novel Soft Prompt approach with minimally added parameters, by infusing prompt learning concepts into cross-embodiment robot learning and introducing separate sets of learnable embeddings for each distinct data source. These embeddings serve as embodiment-specific prompts, which in unity empower VLA models with effective exploitation of varying cross-embodiment features. Our new X-VLA, a neat flow-matching-based VLA architecture, relies exclusively on soft-prompted standard Transformer encoders, enjoying both scalability and simplicity. Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep of benchmarks, demonstrating superior results on a wide axes of capabilities, from flexible dexterity to quick adaptation across embodiments, environments, and tasks. Website: https://thu-air-dream.github.io/X-VLA/
PDF132October 16, 2025