ChatPaper.aiChatPaper

샤오미 로보틱스-0: 실시간 실행이 가능한 오픈소스 비전-언어-행동 모델

Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

February 13, 2026
저자: Rui Cai, Jun Guo, Xinze He, Piaopiao Jin, Jie Li, Bingxuan Lin, Futeng Liu, Wei Liu, Fei Ma, Kun Ma, Feng Qiu, Heng Qu, Yifei Su, Qiao Sun, Dong Wang, Donghao Wang, Yunhong Wang, Rujie Wu, Diyun Xiang, Yu Yang, Hangjun Ye, Yuan Zhang, Quanyun Zhou
cs.AI

초록

본 보고서에서는 고성능과 빠르고 부드러운 실시간 실행에 최적화된 첨단 시각-언어-행동(VLA) 모델인 Xiaomi-Robotics-0를 소개합니다. 우리 방법의 핵심은 신중하게 설계된 훈련 방법론과 배포 전략에 있습니다. Xiaomi-Robotics-0는 먼저 대규모 교차 구현체(cross-embodiment) 로봇 궤적 데이터와 시각-언어 데이터로 사전 훈련되어, 기반이 되는 사전 훈련된 VLM의 시각-의미 지식에 대한 치명적 망각(catastrophic forgetting)을 방지하면서도 폭넓고 일반화 가능한 행동 생성 능력을 갖추게 됩니다. 후속 훈련(post-training) 단계에서는 실제 로봇 실행(rollout) 시 발생하는 추론 지연 시간(latency)을 해결하기 위해 비동기 실행을 위한 VLA 모델 훈련 기법 여러 가지를 제안합니다. 배포 단계에서는 연속적으로 예측된 행동 청크(chunk)의 타임스텝(timestep)을 신중하게 정렬하여 지속적이고 끊김 없는 실시간 실행을 보장합니다. 우리는 Xiaomi-Robotics-0를 시뮬레이션 벤치마크와 정밀하고 민첩한 양손 조작이 필요한 두 가지 까다로운 실제 로봇 과제에서 광범위하게 평가했습니다. 결과에 따르면 우리의 방법은 모든 시뮬레이션 벤치마크에서 최첨단 성능을 달성했습니다. 더 나아가 Xiaomi-Robotics-0는 소비자용 GPU를 사용하여 실제 로봇에서 빠르고 부드럽게 실행될 수 있으며, 두 실제 로봇 과제 모두에서 높은 성공률과 처리량(throughput)을 달성했습니다. 향후 연구를 촉진하기 위해 코드와 모델 체크포인트는 https://xiaomi-robotics-0.github.io에서 공개되었습니다.
English
In this report, we introduce Xiaomi-Robotics-0, an advanced vision-language-action (VLA) model optimized for high performance and fast and smooth real-time execution. The key to our method lies in a carefully designed training recipe and deployment strategy. Xiaomi-Robotics-0 is first pre-trained on large-scale cross-embodiment robot trajectories and vision-language data, endowing it with broad and generalizable action-generation capabilities while avoiding catastrophic forgetting of the visual-semantic knowledge of the underlying pre-trained VLM. During post-training, we propose several techniques for training the VLA model for asynchronous execution to address the inference latency during real-robot rollouts. During deployment, we carefully align the timesteps of consecutive predicted action chunks to ensure continuous and seamless real-time rollouts. We evaluate Xiaomi-Robotics-0 extensively in simulation benchmarks and on two challenging real-robot tasks that require precise and dexterous bimanual manipulation. Results show that our method achieves state-of-the-art performance across all simulation benchmarks. Moreover, Xiaomi-Robotics-0 can roll out fast and smoothly on real robots using a consumer-grade GPU, achieving high success rates and throughput on both real-robot tasks. To facilitate future research, code and model checkpoints are open-sourced at https://xiaomi-robotics-0.github.io
PDF32February 17, 2026