Xiaomi-Robotics-0: Um Modelo Visão-Linguagem-Ação de Código Aberto com Execução em Tempo Real
Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution
February 13, 2026
Autores: Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang, Yu Yang, Hangjun Ye, Yuan Zhang, Quanyun Zhou
cs.AI
Resumo
Neste relatório, apresentamos o Xiaomi-Robotics-0, um modelo avançado de visão-linguagem-ação (VLA) otimizado para alto desempenho e execução rápida e suave em tempo real. A chave do nosso método reside em uma receita de treinamento e uma estratégia de implantação cuidadosamente projetadas. O Xiaomi-Robotics-0 é primeiro pré-treinado em trajetórias robóticas de grande escala com diferentes embodimentos e dados visão-linguagem, dotando-o de capacidades amplas e generalizáveis de geração de ações, evitando ao mesmo tempo o esquecimento catastrófico do conhecimento visual-semântico do modelo de linguagem visual (VLM) pré-treinado subjacente. Durante o pós-treinamento, propomos várias técnicas para treinar o modelo VLA para execução assíncrona, a fim de abordar a latência de inferência durante a execução em robôs reais. Durante a implantação, alinhamos cuidadosamente os intervalos de tempo de fragmentos de ação previstos consecutivos para garantir execuções contínuas e perfeitas em tempo real. Avaliamos o Xiaomi-Robotics-0 extensivamente em benchmarks de simulação e em duas tarefas desafiadoras com robôs reais que exigem manipulação bimanual precisa e hábil. Os resultados mostram que nosso método alcança desempenho de ponta em todos os benchmarks de simulação. Além disso, o Xiaomi-Robotics-0 pode ser executado de forma rápida e suave em robôs reais usando uma GPU de nível consumer, atingindo altas taxas de sucesso e throughput em ambas as tarefas com robôs reais. Para facilitar pesquisas futuras, o código e os pontos de verificação do modelo são de código aberto em https://xiaomi-robotics-0.github.io.
English
In this report, we introduce Xiaomi-Robotics-0, an advanced vision-language-action (VLA) model optimized for high performance and fast and smooth real-time execution. The key to our method lies in a carefully designed training recipe and deployment strategy. Xiaomi-Robotics-0 is first pre-trained on large-scale cross-embodiment robot trajectories and vision-language data, endowing it with broad and generalizable action-generation capabilities while avoiding catastrophic forgetting of the visual-semantic knowledge of the underlying pre-trained VLM. During post-training, we propose several techniques for training the VLA model for asynchronous execution to address the inference latency during real-robot rollouts. During deployment, we carefully align the timesteps of consecutive predicted action chunks to ensure continuous and seamless real-time rollouts. We evaluate Xiaomi-Robotics-0 extensively in simulation benchmarks and on two challenging real-robot tasks that require precise and dexterous bimanual manipulation. Results show that our method achieves state-of-the-art performance across all simulation benchmarks. Moreover, Xiaomi-Robotics-0 can roll out fast and smoothly on real robots using a consumer-grade GPU, achieving high success rates and throughput on both real-robot tasks. To facilitate future research, code and model checkpoints are open-sourced at https://xiaomi-robotics-0.github.io