GMT: Rastreamento Geral de Movimento para Controle Corporal Total de Humanoides
GMT: General Motion Tracking for Humanoid Whole-Body Control
June 17, 2025
Autores: Zixuan Chen, Mazeyu Ji, Xuxin Cheng, Xuanbin Peng, Xue Bin Peng, Xiaolong Wang
cs.AI
Resumo
A capacidade de rastrear movimentos gerais do corpo inteiro no mundo real é uma maneira útil de construir robôs humanoides de propósito geral. No entanto, alcançar isso pode ser desafiador devido à diversidade temporal e cinemática dos movimentos, à capacidade da política e à dificuldade de coordenação entre as partes superior e inferior do corpo. Para abordar esses problemas, propomos o GMT, uma estrutura escalável e geral de rastreamento de movimentos que treina uma única política unificada para permitir que robôs humanoides rastreiem diversos movimentos no mundo real. O GMT é construído com base em dois componentes principais: uma estratégia de Amostragem Adaptativa e uma arquitetura de Mistura de Especialistas em Movimentos (MoE, na sigla em inglês). A Amostragem Adaptativa equilibra automaticamente movimentos fáceis e difíceis durante o treinamento. O MoE garante uma melhor especialização de diferentes regiões da variedade de movimentos. Através de extensos experimentos tanto em simulação quanto no mundo real, demonstramos a eficácia do GMT, alcançando desempenho de ponta em um amplo espectro de movimentos usando uma política geral unificada. Vídeos e informações adicionais podem ser encontrados em https://gmt-humanoid.github.io.
English
The ability to track general whole-body motions in the real world is a useful
way to build general-purpose humanoid robots. However, achieving this can be
challenging due to the temporal and kinematic diversity of the motions, the
policy's capability, and the difficulty of coordination of the upper and lower
bodies. To address these issues, we propose GMT, a general and scalable
motion-tracking framework that trains a single unified policy to enable
humanoid robots to track diverse motions in the real world. GMT is built upon
two core components: an Adaptive Sampling strategy and a Motion
Mixture-of-Experts (MoE) architecture. The Adaptive Sampling automatically
balances easy and difficult motions during training. The MoE ensures better
specialization of different regions of the motion manifold. We show through
extensive experiments in both simulation and the real world the effectiveness
of GMT, achieving state-of-the-art performance across a broad spectrum of
motions using a unified general policy. Videos and additional information can
be found at https://gmt-humanoid.github.io.