Xiaomi-Robotics-0:リアルタイム実行可能なオープンソース視覚言語動作モデル
Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution
February 13, 2026
著者: Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang, Yu Yang, Hangjun Ye, Yuan Zhang, Quanyun Zhou
cs.AI
要旨
本報告では、高性能かつ高速で滑らかなリアルタイム実行に最適化された先進的な視覚言語行動(VLA)モデル「Xiaomi-Robotics-0」を紹介する。本手法の鍵は、慎重に設計された訓練レシピとデプロイ戦略にある。Xiaomi-Robotics-0はまず、大規模なクロスエンボディメントのロボット軌跡データと視覚言語データで事前訓練され、基盤となる事前訓練済みVLMの視覚的・意味的知識の破滅的な忘却を回避しつつ、広範で一般化可能な行動生成能力を獲得する。事後訓練段階では、実ロボット展開時の推論遅延に対処するため、非同期実行のためのVLAモデル訓練技術を複数提案する。デプロイ時には、連続して予測される行動チャンクのタイムステップを注意深く調整し、連続的でシームレスなリアルタイム展開を保証する。Xiaomi-Robotics-0をシミュレーションベンチマークおよび、精密で高度な両手操作を要する2つの挑戦的な実ロボットタスクで広範囲に評価した。結果は、本手法が全てのシミュレーションベンチマークで最高性能を達成することを示した。さらに、Xiaomi-Robotics-0はコンシューマーグレードのGPUを用いて実ロボット上で高速かつ滑らかに展開でき、両実ロボットタスクにおいて高い成功率とスループットを実現した。将来の研究の発展に貢献するため、コードとモデルチェックポイントをhttps://xiaomi-robotics-0.github.io で公開している。
English
In this report, we introduce Xiaomi-Robotics-0, an advanced vision-language-action (VLA) model optimized for high performance and fast and smooth real-time execution. The key to our method lies in a carefully designed training recipe and deployment strategy. Xiaomi-Robotics-0 is first pre-trained on large-scale cross-embodiment robot trajectories and vision-language data, endowing it with broad and generalizable action-generation capabilities while avoiding catastrophic forgetting of the visual-semantic knowledge of the underlying pre-trained VLM. During post-training, we propose several techniques for training the VLA model for asynchronous execution to address the inference latency during real-robot rollouts. During deployment, we carefully align the timesteps of consecutive predicted action chunks to ensure continuous and seamless real-time rollouts. We evaluate Xiaomi-Robotics-0 extensively in simulation benchmarks and on two challenging real-robot tasks that require precise and dexterous bimanual manipulation. Results show that our method achieves state-of-the-art performance across all simulation benchmarks. Moreover, Xiaomi-Robotics-0 can roll out fast and smoothly on real robots using a consumer-grade GPU, achieving high success rates and throughput on both real-robot tasks. To facilitate future research, code and model checkpoints are open-sourced at https://xiaomi-robotics-0.github.io