GMT: Seguimiento General de Movimiento para el Control de Cuerpo Completo en Humanoides
GMT: General Motion Tracking for Humanoid Whole-Body Control
June 17, 2025
Autores: Zixuan Chen, Mazeyu Ji, Xuxin Cheng, Xuanbin Peng, Xue Bin Peng, Xiaolong Wang
cs.AI
Resumen
La capacidad de rastrear movimientos generales de todo el cuerpo en el mundo real es una forma útil de construir robots humanoides de propósito general. Sin embargo, lograr esto puede ser desafiante debido a la diversidad temporal y cinemática de los movimientos, la capacidad de la política y la dificultad de coordinación entre las partes superior e inferior del cuerpo. Para abordar estos problemas, proponemos GMT, un marco general y escalable de seguimiento de movimientos que entrena una única política unificada para permitir que los robots humanoides rastreen diversos movimientos en el mundo real. GMT se basa en dos componentes principales: una estrategia de Muestreo Adaptativo y una arquitectura de Mezcla de Expertos en Movimiento (MoE, por sus siglas en inglés). El Muestreo Adaptativo equilibra automáticamente movimientos fáciles y difíciles durante el entrenamiento. El MoE asegura una mejor especialización de diferentes regiones del colector de movimientos. A través de extensos experimentos tanto en simulación como en el mundo real, demostramos la efectividad de GMT, logrando un rendimiento de vanguardia en un amplio espectro de movimientos utilizando una política general unificada. Los videos e información adicional se pueden encontrar en https://gmt-humanoid.github.io.
English
The ability to track general whole-body motions in the real world is a useful
way to build general-purpose humanoid robots. However, achieving this can be
challenging due to the temporal and kinematic diversity of the motions, the
policy's capability, and the difficulty of coordination of the upper and lower
bodies. To address these issues, we propose GMT, a general and scalable
motion-tracking framework that trains a single unified policy to enable
humanoid robots to track diverse motions in the real world. GMT is built upon
two core components: an Adaptive Sampling strategy and a Motion
Mixture-of-Experts (MoE) architecture. The Adaptive Sampling automatically
balances easy and difficult motions during training. The MoE ensures better
specialization of different regions of the motion manifold. We show through
extensive experiments in both simulation and the real world the effectiveness
of GMT, achieving state-of-the-art performance across a broad spectrum of
motions using a unified general policy. Videos and additional information can
be found at https://gmt-humanoid.github.io.