ChatPaper.aiChatPaper

X-VLA:ソフトプロンプト型Transformerによるスケーラブルなクロスエンボディメント視覚-言語-行動モデル

X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

October 11, 2025
著者: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan
cs.AI

要旨

汎用的なVision-Language-Action(VLA)モデルの成功は、大規模でクロスエンボディメントの異種データセットを用いた多様なロボットプラットフォームでの効果的なトレーニングに依存している。豊かで多様なロボットデータソースの異質性を活用し、促進するために、我々は最小限の追加パラメータでソフトプロンプトアプローチを提案する。これは、プロンプト学習の概念をクロスエンボディメントのロボット学習に注入し、各異なるデータソースに対して別々の学習可能な埋め込みセットを導入することによって実現される。これらの埋め込みは、エンボディメント固有のプロンプトとして機能し、統一してVLAモデルに様々なクロスエンボディメントの特徴を効果的に活用させる。我々の新しいX-VLAは、フローマッチングに基づいた簡潔なVLAアーキテクチャであり、ソフトプロンプトされた標準Transformerエンコーダーのみに依存し、スケーラビリティとシンプルさを享受する。6つのシミュレーションおよび3つの実世界のロボットで評価された我々の0.9Bインスタンス化であるX-VLA-0.9Bは、一連のベンチマークでSOTA性能を同時に達成し、柔軟な器用さからエンボディメント、環境、タスク間での迅速な適応まで、幅広い能力軸で優れた結果を示す。ウェブサイト: https://thu-air-dream.github.io/X-VLA/
English
Successful generalist Vision-Language-Action (VLA) models rely on effective training across diverse robotic platforms with large-scale, cross-embodiment, heterogeneous datasets. To facilitate and leverage the heterogeneity in rich, diverse robotic data sources, we propose a novel Soft Prompt approach with minimally added parameters, by infusing prompt learning concepts into cross-embodiment robot learning and introducing separate sets of learnable embeddings for each distinct data source. These embeddings serve as embodiment-specific prompts, which in unity empower VLA models with effective exploitation of varying cross-embodiment features. Our new X-VLA, a neat flow-matching-based VLA architecture, relies exclusively on soft-prompted standard Transformer encoders, enjoying both scalability and simplicity. Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep of benchmarks, demonstrating superior results on a wide axes of capabilities, from flexible dexterity to quick adaptation across embodiments, environments, and tasks. Website: https://thu-air-dream.github.io/X-VLA/
PDF132October 16, 2025