X-VLA: Trasformatore a Soft-Prompt come Modello Scalabile Visione-Linguaggio-Azione per Cross-Embodiment
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
October 11, 2025
Autori: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan
cs.AI
Abstract
I modelli Vision-Language-Action (VLA) generalisti di successo si basano su un addestramento efficace su piattaforme robotiche diverse con dataset eterogenei su larga scala e cross-embodiment. Per facilitare e sfruttare l'eterogeneità delle fonti di dati robotiche ricche e diversificate, proponiamo un nuovo approccio Soft Prompt con un numero minimo di parametri aggiunti, integrando i concetti di prompt learning nell'apprendimento robotico cross-embodiment e introducendo insiemi separati di embedding apprendibili per ciascuna fonte di dati distinta. Questi embedding fungono da prompt specifici per l'embodiment, che, uniti, consentono ai modelli VLA di sfruttare efficacemente le caratteristiche cross-embodiment variabili. Il nostro nuovo X-VLA, un'architettura VLA basata su flow-matching, si affida esclusivamente a encoder Transformer standard con soft prompt, godendo sia di scalabilità che di semplicità. Valutato su 6 simulazioni e 3 robot del mondo reale, la nostra istanziazione da 0,9B, X-VLA-0.9B, raggiunge simultaneamente prestazioni all'avanguardia su una vasta gamma di benchmark, dimostrando risultati superiori su un ampio spettro di capacità, dalla destrezza flessibile all'adattamento rapido tra embodiment, ambienti e compiti. Sito web: https://thu-air-dream.github.io/X-VLA/
English
Successful generalist Vision-Language-Action (VLA) models rely on effective
training across diverse robotic platforms with large-scale, cross-embodiment,
heterogeneous datasets. To facilitate and leverage the heterogeneity in rich,
diverse robotic data sources, we propose a novel Soft Prompt approach with
minimally added parameters, by infusing prompt learning concepts into
cross-embodiment robot learning and introducing separate sets of learnable
embeddings for each distinct data source. These embeddings serve as
embodiment-specific prompts, which in unity empower VLA models with effective
exploitation of varying cross-embodiment features. Our new X-VLA, a neat
flow-matching-based VLA architecture, relies exclusively on soft-prompted
standard Transformer encoders, enjoying both scalability and simplicity.
Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B
instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep
of benchmarks, demonstrating superior results on a wide axes of capabilities,
from flexible dexterity to quick adaptation across embodiments, environments,
and tasks. Website: https://thu-air-dream.github.io/X-VLA/