Xiaomi-Robotics-0: Ein Open-Source-Vision-Language-Action-Modell mit Echtzeitausführung
Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution
February 13, 2026
papers.authors: Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang, Yu Yang, Hangjun Ye, Yuan Zhang, Quanyun Zhou
cs.AI
papers.abstract
In diesem Bericht stellen wir Xiaomi-Robotics-0 vor, ein fortschrittliches Vision-Language-Action (VLA)-Modell, das für hohe Leistungsfähigkeit sowie schnelle und flüssige Echtzeitausführung optimiert ist. Der Schlüssel unserer Methode liegt in einem sorgfältig konzipierten Trainingsrezept und einer durchdachten Bereitstellungsstrategie. Xiaomi-Robotics-0 wird zunächst mit groß angelegten, roboterübergreifenden Trajektorien und Vision-Language-Daten vortrainiert, wodurch es breite und generalisierbare Aktionsgenerierungsfähigkeiten erlangt, ohne das katastrophale Vergessen des visuell-semantischen Wissens des zugrundeliegenden vortrainierten VLM zu riskieren. Während des Nachtrainings schlagen wir mehrere Techniken vor, um das VLA-Modell für asynchrone Ausführung zu trainieren und so die Inferenzlatenz während des Einsatzes auf realen Robotern zu adressieren. Bei der Bereitstellung synchronisieren wir die Zeitpunkte aufeinanderfolgender vorhergesagter Aktionsabschnitte sorgfältig, um kontinuierliche und nahtlose Echtzeitausführungen zu gewährleisten. Wir evaluieren Xiaomi-Robotics-0 umfassend in Simulations-Benchmarks und an zwei anspruchsvollen Aufgaben mit realen Robotern, die präise und geschickte bimanuelle Manipulation erfordern. Die Ergebnisse zeigen, dass unsere Methode in allen Simulations-Benchmarks state-of-the-art Leistung erzielt. Darüber hinaus kann Xiaomi-Robotics-0 auf realen Robotern mit einer Consumer-Grade-GPU schnell und flüssig agieren und erreicht bei beiden Real-Roboter-Aufgaben hohe Erfolgsquoten und Durchsatzraten. Um zukünftige Forschung zu ermöglichen, sind Code und Modell-Checkpoints unter https://xiaomi-robotics-0.github.io quelloffen verfügbar.
English
In this report, we introduce Xiaomi-Robotics-0, an advanced vision-language-action (VLA) model optimized for high performance and fast and smooth real-time execution. The key to our method lies in a carefully designed training recipe and deployment strategy. Xiaomi-Robotics-0 is first pre-trained on large-scale cross-embodiment robot trajectories and vision-language data, endowing it with broad and generalizable action-generation capabilities while avoiding catastrophic forgetting of the visual-semantic knowledge of the underlying pre-trained VLM. During post-training, we propose several techniques for training the VLA model for asynchronous execution to address the inference latency during real-robot rollouts. During deployment, we carefully align the timesteps of consecutive predicted action chunks to ensure continuous and seamless real-time rollouts. We evaluate Xiaomi-Robotics-0 extensively in simulation benchmarks and on two challenging real-robot tasks that require precise and dexterous bimanual manipulation. Results show that our method achieves state-of-the-art performance across all simulation benchmarks. Moreover, Xiaomi-Robotics-0 can roll out fast and smoothly on real robots using a consumer-grade GPU, achieving high success rates and throughput on both real-robot tasks. To facilitate future research, code and model checkpoints are open-sourced at https://xiaomi-robotics-0.github.io