Xiaomi-Robotics-0: Открытая модель «зрение-язык-действие» с выполнением в реальном времени

Аннотация

В данном отчете мы представляем Xiaomi-Robotics-0 — передовую модель «видение-язык-действие» (VLA), оптимизированную для высокой производительности и быстрого плавного выполнения в реальном времени. Ключевым аспектом нашего метода является тщательно продуманный рецепт обучения и стратегия развертывания. Xiaomi-Robotics-0 сначала проходит предварительное обучение на крупномасштабных данных о траекториях роботов с различной морфологией и визуально-языковых данных, что наделяет ее широкими и обобщаемыми способностями к генерации действий, одновременно предотвращая катастрофическое забывание визуально-семантических знаний базовой предобученной VLM. В процессе дообучения мы предлагаем несколько методов для асинхронного выполнения VLA-модели, чтобы устранить задержки вывода при работе с реальным роботом. При развертывании мы тщательно синхронизируем временные метки последовательных прогнозируемых фрагментов действий для обеспечения непрерывного и бесшовного выполнения в реальном времени. Мы всесторонне оцениваем Xiaomi-Robotics-0 на симуляционных тестах и на двух сложных задачах с реальным роботом, требующих точного и ловкого двуручного манипулирования. Результаты показывают, что наш метод демонстрирует наилучшую производительность во всех симуляционных тестах. Более того, Xiaomi-Robotics-0 способна работать быстро и плавно на реальных роботах с использованием потребительского графического процессора, достигая высоких показателей успешности и пропускной способности в обеих задачах. Для содействия будущим исследованиям код и контрольные точки модели опубликованы по адресу https://xiaomi-robotics-0.github.io.

English

In this report, we introduce Xiaomi-Robotics-0, an advanced vision-language-action (VLA) model optimized for high performance and fast and smooth real-time execution. The key to our method lies in a carefully designed training recipe and deployment strategy. Xiaomi-Robotics-0 is first pre-trained on large-scale cross-embodiment robot trajectories and vision-language data, endowing it with broad and generalizable action-generation capabilities while avoiding catastrophic forgetting of the visual-semantic knowledge of the underlying pre-trained VLM. During post-training, we propose several techniques for training the VLA model for asynchronous execution to address the inference latency during real-robot rollouts. During deployment, we carefully align the timesteps of consecutive predicted action chunks to ensure continuous and seamless real-time rollouts. We evaluate Xiaomi-Robotics-0 extensively in simulation benchmarks and on two challenging real-robot tasks that require precise and dexterous bimanual manipulation. Results show that our method achieves state-of-the-art performance across all simulation benchmarks. Moreover, Xiaomi-Robotics-0 can roll out fast and smoothly on real robots using a consumer-grade GPU, achieving high success rates and throughput on both real-robot tasks. To facilitate future research, code and model checkpoints are open-sourced at https://xiaomi-robotics-0.github.io

Xiaomi-Robotics-0: Открытая модель «зрение-язык-действие» с выполнением в реальном времени

Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

Аннотация

Support