Xiaomi-Robotics-0: Un modello visione-linguaggio-azione open-source con esecuzione in tempo reale

Abstract

In questo rapporto presentiamo Xiaomi-Robotics-0, un modello avanzato visione-linguaggio-azione (VLA) ottimizzato per alte prestazioni ed esecuzione real-time rapida e fluida. La chiave del nostro metodo risiede in una strategia di addestramento e distribuzione accuratamente progettata. Xiaomi-Robotics-0 viene inizialmente pre-addestrato su traiettorie robotiche cross-embodiment e dati visione-linguaggio su larga scala, dotandolo di capacità di generazione di azioni ampie e generalizzabili, evitando al contempo la dimenticanza catastrofica della conoscenza visivo-semantica del VLM pre-addestrato sottostante. Durante il post-addestramento, proponiamo diverse tecniche per addestrare il modello VLA all'esecuzione asincrona, al fine di affrontare la latenza di inferenza durante le esecuzioni su robot reali. In fase di distribuzione, allineiamo attentamente i time-step di blocchi di azioni predetti consecutivi per garantire esecuzioni real-time continue e senza interruzioni. Valutiamo Xiaomi-Robotics-0 in modo estensivo su benchmark di simulazione e su due impegnativi compiti con robot reali che richiedono una manipolazione bimanuale precisa e destrosa. I risultati dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia in tutti i benchmark di simulazione. Inoltre, Xiaomi-Robotics-0 può essere eseguito in modo rapido e fluido su robot reali utilizzando una GPU di classe consumer, ottenendo alti tassi di successo e throughput in entrambi i compiti reali. Per favorire la ricerca futura, codice e checkpoint del modello sono open-source all'indirizzo https://xiaomi-robotics-0.github.io.

English

In this report, we introduce Xiaomi-Robotics-0, an advanced vision-language-action (VLA) model optimized for high performance and fast and smooth real-time execution. The key to our method lies in a carefully designed training recipe and deployment strategy. Xiaomi-Robotics-0 is first pre-trained on large-scale cross-embodiment robot trajectories and vision-language data, endowing it with broad and generalizable action-generation capabilities while avoiding catastrophic forgetting of the visual-semantic knowledge of the underlying pre-trained VLM. During post-training, we propose several techniques for training the VLA model for asynchronous execution to address the inference latency during real-robot rollouts. During deployment, we carefully align the timesteps of consecutive predicted action chunks to ensure continuous and seamless real-time rollouts. We evaluate Xiaomi-Robotics-0 extensively in simulation benchmarks and on two challenging real-robot tasks that require precise and dexterous bimanual manipulation. Results show that our method achieves state-of-the-art performance across all simulation benchmarks. Moreover, Xiaomi-Robotics-0 can roll out fast and smoothly on real robots using a consumer-grade GPU, achieving high success rates and throughput on both real-robot tasks. To facilitate future research, code and model checkpoints are open-sourced at https://xiaomi-robotics-0.github.io

Xiaomi-Robotics-0: Un modello visione-linguaggio-azione open-source con esecuzione in tempo reale

Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

Abstract

Support