Xiaomi-Robotics-0: Um Modelo Visão-Linguagem-Ação de Código Aberto com Execução em Tempo Real

Resumo

Neste relatório, apresentamos o Xiaomi-Robotics-0, um modelo avançado de visão-linguagem-ação (VLA) otimizado para alto desempenho e execução rápida e suave em tempo real. A chave do nosso método reside em uma receita de treinamento e uma estratégia de implantação cuidadosamente projetadas. O Xiaomi-Robotics-0 é primeiro pré-treinado em trajetórias robóticas de grande escala com diferentes embodimentos e dados visão-linguagem, dotando-o de capacidades amplas e generalizáveis de geração de ações, evitando ao mesmo tempo o esquecimento catastrófico do conhecimento visual-semântico do modelo de linguagem visual (VLM) pré-treinado subjacente. Durante o pós-treinamento, propomos várias técnicas para treinar o modelo VLA para execução assíncrona, a fim de abordar a latência de inferência durante a execução em robôs reais. Durante a implantação, alinhamos cuidadosamente os intervalos de tempo de fragmentos de ação previstos consecutivos para garantir execuções contínuas e perfeitas em tempo real. Avaliamos o Xiaomi-Robotics-0 extensivamente em benchmarks de simulação e em duas tarefas desafiadoras com robôs reais que exigem manipulação bimanual precisa e hábil. Os resultados mostram que nosso método alcança desempenho de ponta em todos os benchmarks de simulação. Além disso, o Xiaomi-Robotics-0 pode ser executado de forma rápida e suave em robôs reais usando uma GPU de nível consumer, atingindo altas taxas de sucesso e throughput em ambas as tarefas com robôs reais. Para facilitar pesquisas futuras, o código e os pontos de verificação do modelo são de código aberto em https://xiaomi-robotics-0.github.io.

English

In this report, we introduce Xiaomi-Robotics-0, an advanced vision-language-action (VLA) model optimized for high performance and fast and smooth real-time execution. The key to our method lies in a carefully designed training recipe and deployment strategy. Xiaomi-Robotics-0 is first pre-trained on large-scale cross-embodiment robot trajectories and vision-language data, endowing it with broad and generalizable action-generation capabilities while avoiding catastrophic forgetting of the visual-semantic knowledge of the underlying pre-trained VLM. During post-training, we propose several techniques for training the VLA model for asynchronous execution to address the inference latency during real-robot rollouts. During deployment, we carefully align the timesteps of consecutive predicted action chunks to ensure continuous and seamless real-time rollouts. We evaluate Xiaomi-Robotics-0 extensively in simulation benchmarks and on two challenging real-robot tasks that require precise and dexterous bimanual manipulation. Results show that our method achieves state-of-the-art performance across all simulation benchmarks. Moreover, Xiaomi-Robotics-0 can roll out fast and smoothly on real robots using a consumer-grade GPU, achieving high success rates and throughput on both real-robot tasks. To facilitate future research, code and model checkpoints are open-sourced at https://xiaomi-robotics-0.github.io

Xiaomi-Robotics-0: Um Modelo Visão-Linguagem-Ação de Código Aberto com Execução em Tempo Real

Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

Resumo

Support