X-VLA: Transformador con Indicaciones Suaves como Modelo Escalable de Visión-Lenguaje-Acción en Embodiments Cruzados
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
October 11, 2025
Autores: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan
cs.AI
Resumen
Los modelos generalistas exitosos de Visión-Lenguaje-Acción (VLA) dependen de un entrenamiento efectivo en diversas plataformas robóticas con conjuntos de datos heterogéneos, de gran escala y de múltiples encarnaciones. Para facilitar y aprovechar la heterogeneidad en fuentes de datos robóticos ricos y diversos, proponemos un novedoso enfoque de *Soft Prompt* con un mínimo de parámetros añadidos, al integrar conceptos de aprendizaje de *prompts* en el aprendizaje robótico de múltiples encarnaciones e introducir conjuntos separados de incrustaciones aprendibles para cada fuente de datos distinta. Estas incrustaciones funcionan como *prompts* específicos de encarnación, que en conjunto potencian a los modelos VLA para explotar de manera efectiva las características variadas de múltiples encarnaciones. Nuestro nuevo X-VLA, una arquitectura VLA basada en emparejamiento de flujos, se apoya exclusivamente en codificadores *Transformer* estándar con *soft prompts*, disfrutando tanto de escalabilidad como de simplicidad. Evaluado en 6 simulaciones y 3 robots del mundo real, nuestra instanciación de 0.9B, X-VLA-0.9B, logra simultáneamente un rendimiento de vanguardia en una amplia gama de puntos de referencia, demostrando resultados superiores en un amplio espectro de capacidades, desde destreza flexible hasta una rápida adaptación entre encarnaciones, entornos y tareas. Sitio web: https://thu-air-dream.github.io/X-VLA/
English
Successful generalist Vision-Language-Action (VLA) models rely on effective
training across diverse robotic platforms with large-scale, cross-embodiment,
heterogeneous datasets. To facilitate and leverage the heterogeneity in rich,
diverse robotic data sources, we propose a novel Soft Prompt approach with
minimally added parameters, by infusing prompt learning concepts into
cross-embodiment robot learning and introducing separate sets of learnable
embeddings for each distinct data source. These embeddings serve as
embodiment-specific prompts, which in unity empower VLA models with effective
exploitation of varying cross-embodiment features. Our new X-VLA, a neat
flow-matching-based VLA architecture, relies exclusively on soft-prompted
standard Transformer encoders, enjoying both scalability and simplicity.
Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B
instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep
of benchmarks, demonstrating superior results on a wide axes of capabilities,
from flexible dexterity to quick adaptation across embodiments, environments,
and tasks. Website: https://thu-air-dream.github.io/X-VLA/