Xiaomi-Robotics-0: Открытая модель «зрение-язык-действие» с выполнением в реальном времени
Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution
February 13, 2026
Авторы: Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang, Yu Yang, Hangjun Ye, Yuan Zhang, Quanyun Zhou
cs.AI
Аннотация
В данном отчете мы представляем Xiaomi-Robotics-0 — передовую модель «видение-язык-действие» (VLA), оптимизированную для высокой производительности и быстрого плавного выполнения в реальном времени. Ключевым аспектом нашего метода является тщательно продуманный рецепт обучения и стратегия развертывания. Xiaomi-Robotics-0 сначала проходит предварительное обучение на крупномасштабных данных о траекториях роботов с различной морфологией и визуально-языковых данных, что наделяет ее широкими и обобщаемыми способностями к генерации действий, одновременно предотвращая катастрофическое забывание визуально-семантических знаний базовой предобученной VLM. В процессе дообучения мы предлагаем несколько методов для асинхронного выполнения VLA-модели, чтобы устранить задержки вывода при работе с реальным роботом. При развертывании мы тщательно синхронизируем временные метки последовательных прогнозируемых фрагментов действий для обеспечения непрерывного и бесшовного выполнения в реальном времени. Мы всесторонне оцениваем Xiaomi-Robotics-0 на симуляционных тестах и на двух сложных задачах с реальным роботом, требующих точного и ловкого двуручного манипулирования. Результаты показывают, что наш метод демонстрирует наилучшую производительность во всех симуляционных тестах. Более того, Xiaomi-Robotics-0 способна работать быстро и плавно на реальных роботах с использованием потребительского графического процессора, достигая высоких показателей успешности и пропускной способности в обеих задачах. Для содействия будущим исследованиям код и контрольные точки модели опубликованы по адресу https://xiaomi-robotics-0.github.io.
English
In this report, we introduce Xiaomi-Robotics-0, an advanced vision-language-action (VLA) model optimized for high performance and fast and smooth real-time execution. The key to our method lies in a carefully designed training recipe and deployment strategy. Xiaomi-Robotics-0 is first pre-trained on large-scale cross-embodiment robot trajectories and vision-language data, endowing it with broad and generalizable action-generation capabilities while avoiding catastrophic forgetting of the visual-semantic knowledge of the underlying pre-trained VLM. During post-training, we propose several techniques for training the VLA model for asynchronous execution to address the inference latency during real-robot rollouts. During deployment, we carefully align the timesteps of consecutive predicted action chunks to ensure continuous and seamless real-time rollouts. We evaluate Xiaomi-Robotics-0 extensively in simulation benchmarks and on two challenging real-robot tasks that require precise and dexterous bimanual manipulation. Results show that our method achieves state-of-the-art performance across all simulation benchmarks. Moreover, Xiaomi-Robotics-0 can roll out fast and smoothly on real robots using a consumer-grade GPU, achieving high success rates and throughput on both real-robot tasks. To facilitate future research, code and model checkpoints are open-sourced at https://xiaomi-robotics-0.github.io