Xiaomi-Robotics-0 : Un modèle vision-langage-action open source avec exécution en temps réel
Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution
February 13, 2026
papers.authors: Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang, Yu Yang, Hangjun Ye, Yuan Zhang, Quanyun Zhou
cs.AI
papers.abstract
Dans ce rapport, nous présentons Xiaomi-Robotics-0, un modèle vision-langage-action (VLA) avancé optimisé pour des performances élevées et une exécution rapide et fluide en temps réel. La clé de notre méthode réside dans une stratégie d'entraînement et de déploiement soigneusement conçue. Xiaomi-Robotics-0 est d'abord pré-entraîné sur de vastes ensembles de données de trajectoires robotiques à incarnation croisée et de données vision-langage, ce qui lui confère des capacités de génération d'actions étendues et généralisables tout en évitant l'oubli catastrophique des connaissances visuo-sémantiques du modèle de langage visuel (VLM) pré-entraîné sous-jacent. Durant le post-entraînement, nous proposons plusieurs techniques pour entraîner le modèle VLA à une exécution asynchrone afin de résoudre la latence d'inférence lors des déploiements sur de vrais robots. Pendant le déploiement, nous alignons soigneusement les pas de temps des segments d'actions prédits consécutifs pour garantir des déploiements en temps réel continus et homogènes. Nous évaluons Xiaomi-Robotics-0 de manière extensive sur des benchmarks en simulation et sur deux tâches robotiques réelles exigeantes qui nécessitent une manipulation bimanuelle précise et dextre. Les résultats montrent que notre méthode atteint des performances de pointe sur l'ensemble des benchmarks en simulation. De plus, Xiaomi-Robotics-0 peut se déployer rapidement et fluidement sur des robots réels en utilisant un GPU de gamme grand public, atteignant des taux de réussite et un débit élevés sur les deux tâches robotiques réelles. Pour faciliter les recherches futures, le code et les points de contrôle du modèle sont open-source à l'adresse https://xiaomi-robotics-0.github.io.
English
In this report, we introduce Xiaomi-Robotics-0, an advanced vision-language-action (VLA) model optimized for high performance and fast and smooth real-time execution. The key to our method lies in a carefully designed training recipe and deployment strategy. Xiaomi-Robotics-0 is first pre-trained on large-scale cross-embodiment robot trajectories and vision-language data, endowing it with broad and generalizable action-generation capabilities while avoiding catastrophic forgetting of the visual-semantic knowledge of the underlying pre-trained VLM. During post-training, we propose several techniques for training the VLA model for asynchronous execution to address the inference latency during real-robot rollouts. During deployment, we carefully align the timesteps of consecutive predicted action chunks to ensure continuous and seamless real-time rollouts. We evaluate Xiaomi-Robotics-0 extensively in simulation benchmarks and on two challenging real-robot tasks that require precise and dexterous bimanual manipulation. Results show that our method achieves state-of-the-art performance across all simulation benchmarks. Moreover, Xiaomi-Robotics-0 can roll out fast and smoothly on real robots using a consumer-grade GPU, achieving high success rates and throughput on both real-robot tasks. To facilitate future research, code and model checkpoints are open-sourced at https://xiaomi-robotics-0.github.io