X-VLA: Transformador com Soft-Prompt como Modelo Escalável de Visão-Linguagem-Ação para Multiplos Embodiments
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
October 11, 2025
Autores: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan
cs.AI
Resumo
Modelos Vision-Language-Action (VLA) generalistas bem-sucedidos dependem de um treinamento eficaz em diversas plataformas robóticas com conjuntos de dados heterogêneos, de grande escala e de múltiplas incorporações. Para facilitar e aproveitar a heterogeneidade em fontes de dados robóticos ricas e diversas, propomos uma nova abordagem de Soft Prompt com parâmetros minimamente adicionados, ao integrar conceitos de aprendizado de prompts no aprendizado robótico de múltiplas incorporações e introduzir conjuntos separados de embeddings aprendíveis para cada fonte de dados distinta. Esses embeddings funcionam como prompts específicos para cada incorporação, que, em conjunto, capacitam os modelos VLA a explorar efetivamente as características variáveis de múltiplas incorporações. Nosso novo X-VLA, uma arquitetura VLA baseada em correspondência de fluxo, depende exclusivamente de codificadores Transformer padrão com soft prompts, beneficiando-se tanto da escalabilidade quanto da simplicidade. Avaliado em 6 simulações e 3 robôs do mundo real, nossa instanciação de 0,9B — X-VLA-0.9B — alcança simultaneamente desempenho de ponta em uma variedade de benchmarks, demonstrando resultados superiores em uma ampla gama de capacidades, desde destreza flexível até rápida adaptação entre incorporações, ambientes e tarefas. Website: https://thu-air-dream.github.io/X-VLA/
English
Successful generalist Vision-Language-Action (VLA) models rely on effective
training across diverse robotic platforms with large-scale, cross-embodiment,
heterogeneous datasets. To facilitate and leverage the heterogeneity in rich,
diverse robotic data sources, we propose a novel Soft Prompt approach with
minimally added parameters, by infusing prompt learning concepts into
cross-embodiment robot learning and introducing separate sets of learnable
embeddings for each distinct data source. These embeddings serve as
embodiment-specific prompts, which in unity empower VLA models with effective
exploitation of varying cross-embodiment features. Our new X-VLA, a neat
flow-matching-based VLA architecture, relies exclusively on soft-prompted
standard Transformer encoders, enjoying both scalability and simplicity.
Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B
instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep
of benchmarks, demonstrating superior results on a wide axes of capabilities,
from flexible dexterity to quick adaptation across embodiments, environments,
and tasks. Website: https://thu-air-dream.github.io/X-VLA/