ChatPaper.aiChatPaper

Xiaomi-Robotics-0: Un modelo de visión-lenguaje-acción de código abierto con ejecución en tiempo real

Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

February 13, 2026
Autores: Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang, Yu Yang, Hangjun Ye, Yuan Zhang, Quanyun Zhou
cs.AI

Resumen

En este informe presentamos Xiaomi-Robotics-0, un modelo avanzado de visión-lenguaje-acción (VLA) optimizado para alto rendimiento y una ejecución rápida y fluida en tiempo real. La clave de nuestro método reside en una estrategia de entrenamiento y despliegue cuidadosamente diseñada. Xiaomi-Robotics-0 se preentrena primero con trayectorias robóticas de gran escala y datos de visión-lenguaje de múltiples embodimientos, dotándolo de capacidades amplias y generalizables para la generación de acciones, evitando al mismo tiempo el olvido catastrófico del conocimiento visual-semántico del modelo VLA preentrenado base. Durante el post-entrenamiento, proponemos varias técnicas para entrenar el modelo VLA en ejecución asíncrona, con el fin de abordar la latencia de inferencia durante los despliegues en robots reales. En la fase de despliegue, alineamos meticulosamente los intervalos de tiempo de los fragmentos de acción consecutivos predichos para garantizar despliegues continuos y sin interrupciones en tiempo real. Evaluamos Xiaomi-Robotics-0 exhaustivamente en benchmarks de simulación y en dos tareas desafiantes con robots reales que requieren una manipulación bimanual precisa y diestra. Los resultados demuestran que nuestro método alcanza un rendimiento puntero en todos los benchmarks de simulación. Además, Xiaomi-Robotics-0 puede desplegarse de forma rápida y fluida en robots reales utilizando una GPU de gama consumidor, logrando altas tasas de éxito y rendimiento en ambas tareas con robots reales. Para facilitar la investigación futura, el código y los puntos de control del modelo son de código abierto en https://xiaomi-robotics-0.github.io.
English
In this report, we introduce Xiaomi-Robotics-0, an advanced vision-language-action (VLA) model optimized for high performance and fast and smooth real-time execution. The key to our method lies in a carefully designed training recipe and deployment strategy. Xiaomi-Robotics-0 is first pre-trained on large-scale cross-embodiment robot trajectories and vision-language data, endowing it with broad and generalizable action-generation capabilities while avoiding catastrophic forgetting of the visual-semantic knowledge of the underlying pre-trained VLM. During post-training, we propose several techniques for training the VLA model for asynchronous execution to address the inference latency during real-robot rollouts. During deployment, we carefully align the timesteps of consecutive predicted action chunks to ensure continuous and seamless real-time rollouts. We evaluate Xiaomi-Robotics-0 extensively in simulation benchmarks and on two challenging real-robot tasks that require precise and dexterous bimanual manipulation. Results show that our method achieves state-of-the-art performance across all simulation benchmarks. Moreover, Xiaomi-Robotics-0 can roll out fast and smoothly on real robots using a consumer-grade GPU, achieving high success rates and throughput on both real-robot tasks. To facilitate future research, code and model checkpoints are open-sourced at https://xiaomi-robotics-0.github.io
PDF32February 17, 2026