Xiaomi-Robotics-0: Un modello visione-linguaggio-azione open-source con esecuzione in tempo reale
Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution
February 13, 2026
Autori: Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang, Yu Yang, Hangjun Ye, Yuan Zhang, Quanyun Zhou
cs.AI
Abstract
In questo rapporto presentiamo Xiaomi-Robotics-0, un modello avanzato visione-linguaggio-azione (VLA) ottimizzato per alte prestazioni ed esecuzione real-time rapida e fluida. La chiave del nostro metodo risiede in una strategia di addestramento e distribuzione accuratamente progettata. Xiaomi-Robotics-0 viene inizialmente pre-addestrato su traiettorie robotiche cross-embodiment e dati visione-linguaggio su larga scala, dotandolo di capacità di generazione di azioni ampie e generalizzabili, evitando al contempo la dimenticanza catastrofica della conoscenza visivo-semantica del VLM pre-addestrato sottostante. Durante il post-addestramento, proponiamo diverse tecniche per addestrare il modello VLA all'esecuzione asincrona, al fine di affrontare la latenza di inferenza durante le esecuzioni su robot reali. In fase di distribuzione, allineiamo attentamente i time-step di blocchi di azioni predetti consecutivi per garantire esecuzioni real-time continue e senza interruzioni. Valutiamo Xiaomi-Robotics-0 in modo estensivo su benchmark di simulazione e su due impegnativi compiti con robot reali che richiedono una manipolazione bimanuale precisa e destrosa. I risultati dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia in tutti i benchmark di simulazione. Inoltre, Xiaomi-Robotics-0 può essere eseguito in modo rapido e fluido su robot reali utilizzando una GPU di classe consumer, ottenendo alti tassi di successo e throughput in entrambi i compiti reali. Per favorire la ricerca futura, codice e checkpoint del modello sono open-source all'indirizzo https://xiaomi-robotics-0.github.io.
English
In this report, we introduce Xiaomi-Robotics-0, an advanced vision-language-action (VLA) model optimized for high performance and fast and smooth real-time execution. The key to our method lies in a carefully designed training recipe and deployment strategy. Xiaomi-Robotics-0 is first pre-trained on large-scale cross-embodiment robot trajectories and vision-language data, endowing it with broad and generalizable action-generation capabilities while avoiding catastrophic forgetting of the visual-semantic knowledge of the underlying pre-trained VLM. During post-training, we propose several techniques for training the VLA model for asynchronous execution to address the inference latency during real-robot rollouts. During deployment, we carefully align the timesteps of consecutive predicted action chunks to ensure continuous and seamless real-time rollouts. We evaluate Xiaomi-Robotics-0 extensively in simulation benchmarks and on two challenging real-robot tasks that require precise and dexterous bimanual manipulation. Results show that our method achieves state-of-the-art performance across all simulation benchmarks. Moreover, Xiaomi-Robotics-0 can roll out fast and smoothly on real robots using a consumer-grade GPU, achieving high success rates and throughput on both real-robot tasks. To facilitate future research, code and model checkpoints are open-sourced at https://xiaomi-robotics-0.github.io