ChatPaper.aiChatPaper

X-VLA: Soft-Prompted Transformer als skalierbares Vision-Sprache-Handlung-Modell für verschiedene Verkörperungen

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

October 11, 2025
papers.authors: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan
cs.AI

papers.abstract

Erfolgreiche generalistische Vision-Language-Action (VLA)-Modelle basieren auf effektivem Training über diverse robotische Plattformen hinweg mit groß angelegten, cross-embodiment, heterogenen Datensätzen. Um die Heterogenität in reichhaltigen, vielfältigen robotischen Datenquellen zu nutzen und zu fördern, schlagen wir einen neuartigen Soft-Prompt-Ansatz mit minimal zusätzlichen Parametern vor, indem wir Prompt-Learning-Konzepte in das cross-embodiment Robotik-Lernen integrieren und separate Sätze lernbarer Embeddings für jede spezifische Datenquelle einführen. Diese Embeddings dienen als embodiment-spezifische Prompts, die gemeinsam VLA-Modelle befähigen, die unterschiedlichen cross-embodiment Merkmale effektiv zu nutzen. Unser neues X-VLA, eine elegante, auf Flow-Matching basierende VLA-Architektur, stützt sich ausschließlich auf soft-geprompte Standard-Transformer-Encoder und vereint Skalierbarkeit und Einfachheit. Evaluiert über 6 Simulationen sowie 3 realen Robotern, erreicht unsere 0,9B-Instanziierung – X-VLA-0.9B – gleichzeitig Spitzenleistungen über eine Reihe von Benchmarks und demonstriert überlegene Ergebnisse auf einer breiten Palette von Fähigkeiten, von flexibler Geschicklichkeit bis hin zu schneller Anpassung über Embodiments, Umgebungen und Aufgaben hinweg. Website: https://thu-air-dream.github.io/X-VLA/
English
Successful generalist Vision-Language-Action (VLA) models rely on effective training across diverse robotic platforms with large-scale, cross-embodiment, heterogeneous datasets. To facilitate and leverage the heterogeneity in rich, diverse robotic data sources, we propose a novel Soft Prompt approach with minimally added parameters, by infusing prompt learning concepts into cross-embodiment robot learning and introducing separate sets of learnable embeddings for each distinct data source. These embeddings serve as embodiment-specific prompts, which in unity empower VLA models with effective exploitation of varying cross-embodiment features. Our new X-VLA, a neat flow-matching-based VLA architecture, relies exclusively on soft-prompted standard Transformer encoders, enjoying both scalability and simplicity. Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep of benchmarks, demonstrating superior results on a wide axes of capabilities, from flexible dexterity to quick adaptation across embodiments, environments, and tasks. Website: https://thu-air-dream.github.io/X-VLA/
PDF132October 16, 2025