X-VLA: Transformer met Soft-Prompting als Schaalbaar Cross-Embodiment Vision-Taal-Actie Model
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
October 11, 2025
Auteurs: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan
cs.AI
Samenvatting
Succesvolle generalistische Vision-Language-Action (VLA) modellen zijn afhankelijk van effectieve training over diverse robotplatforms met grootschalige, cross-embodiment, heterogene datasets. Om de heterogeniteit in rijke, diverse robotdatabronnen te faciliteren en te benutten, stellen we een nieuwe Soft Prompt-aanpak voor met minimaal toegevoegde parameters, door prompt learning-concepten te integreren in cross-embodiment robotleren en aparte sets van leerbare embeddings te introduceren voor elke afzonderlijke databron. Deze embeddings dienen als embodiment-specifieke prompts, die gezamenlijk VLA-modellen in staat stellen om effectief gebruik te maken van verschillende cross-embodiment kenmerken. Onze nieuwe X-VLA, een elegante VLA-architectuur gebaseerd op flow-matching, vertrouwt uitsluitend op soft-prompted standaard Transformer-encoders, wat zowel schaalbaarheid als eenvoud biedt. Geëvalueerd over 6 simulaties en 3 echte robots, behaalt onze 0.9B instantiatie - X-VLA-0.9B - tegelijkertijd state-of-the-art (SOTA) prestaties over een reeks benchmarks, wat superieure resultaten aantoont op een breed scala aan capaciteiten, van flexibele behendigheid tot snelle aanpassing over verschillende embodiments, omgevingen en taken. Website: https://thu-air-dream.github.io/X-VLA/
English
Successful generalist Vision-Language-Action (VLA) models rely on effective
training across diverse robotic platforms with large-scale, cross-embodiment,
heterogeneous datasets. To facilitate and leverage the heterogeneity in rich,
diverse robotic data sources, we propose a novel Soft Prompt approach with
minimally added parameters, by infusing prompt learning concepts into
cross-embodiment robot learning and introducing separate sets of learnable
embeddings for each distinct data source. These embeddings serve as
embodiment-specific prompts, which in unity empower VLA models with effective
exploitation of varying cross-embodiment features. Our new X-VLA, a neat
flow-matching-based VLA architecture, relies exclusively on soft-prompted
standard Transformer encoders, enjoying both scalability and simplicity.
Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B
instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep
of benchmarks, demonstrating superior results on a wide axes of capabilities,
from flexible dexterity to quick adaptation across embodiments, environments,
and tasks. Website: https://thu-air-dream.github.io/X-VLA/