GMT: Общее отслеживание движений для целостного управления гуманоидными роботами
GMT: General Motion Tracking for Humanoid Whole-Body Control
June 17, 2025
Авторы: Zixuan Chen, Mazeyu Ji, Xuxin Cheng, Xuanbin Peng, Xue Bin Peng, Xiaolong Wang
cs.AI
Аннотация
Способность отслеживать общие движения всего тела в реальном мире является полезным подходом для создания универсальных гуманоидных роботов. Однако достижение этого может быть сложной задачей из-за временного и кинематического разнообразия движений, возможностей политики и трудностей координации верхней и нижней частей тела. Для решения этих проблем мы предлагаем GMT — универсальную и масштабируемую систему отслеживания движений, которая обучает единую унифицированную политику, позволяющую гуманоидным роботам отслеживать разнообразные движения в реальном мире. GMT основана на двух ключевых компонентах: стратегии адаптивной выборки и архитектуре Motion Mixture-of-Experts (MoE). Адаптивная выборка автоматически балансирует простые и сложные движения в процессе обучения. MoE обеспечивает лучшую специализацию различных областей многообразия движений. Мы демонстрируем эффективность GMT в ходе обширных экспериментов как в симуляции, так и в реальном мире, достигая передовых результатов в широком спектре движений с использованием единой универсальной политики. Видео и дополнительная информация доступны по ссылке: https://gmt-humanoid.github.io.
English
The ability to track general whole-body motions in the real world is a useful
way to build general-purpose humanoid robots. However, achieving this can be
challenging due to the temporal and kinematic diversity of the motions, the
policy's capability, and the difficulty of coordination of the upper and lower
bodies. To address these issues, we propose GMT, a general and scalable
motion-tracking framework that trains a single unified policy to enable
humanoid robots to track diverse motions in the real world. GMT is built upon
two core components: an Adaptive Sampling strategy and a Motion
Mixture-of-Experts (MoE) architecture. The Adaptive Sampling automatically
balances easy and difficult motions during training. The MoE ensures better
specialization of different regions of the motion manifold. We show through
extensive experiments in both simulation and the real world the effectiveness
of GMT, achieving state-of-the-art performance across a broad spectrum of
motions using a unified general policy. Videos and additional information can
be found at https://gmt-humanoid.github.io.