GMT: ヒューマノイド全身制御のための汎用モーション追跡
GMT: General Motion Tracking for Humanoid Whole-Body Control
June 17, 2025
著者: Zixuan Chen, Mazeyu Ji, Xuxin Cheng, Xuanbin Peng, Xue Bin Peng, Xiaolong Wang
cs.AI
要旨
現実世界における全身の一般的な動きを追跡する能力は、汎用ヒューマノイドロボットを構築する上で有用な方法です。しかし、これを実現するには、動きの時間的および運動学的多様性、ポリシーの能力、そして上半身と下半身の協調の難しさといった課題があります。これらの問題に対処するため、我々はGMT(General Motion Tracking)を提案します。これは、ヒューマノイドロボットが現実世界で多様な動きを追跡できるようにする単一の統一ポリシーを訓練する、汎用的でスケーラブルなモーショントラッキングフレームワークです。GMTは、Adaptive Sampling戦略とMotion Mixture-of-Experts(MoE)アーキテクチャという2つのコアコンポーネントに基づいて構築されています。Adaptive Samplingは、訓練中に簡単な動きと難しい動きを自動的にバランスさせます。MoEは、モーションマニホールドの異なる領域の専門化をより良く保証します。シミュレーションと現実世界の両方での広範な実験を通じて、GMTの有効性を示し、統一された汎用ポリシーを使用して幅広い動きにおいて最先端の性能を達成しました。ビデオと追加情報はhttps://gmt-humanoid.github.ioでご覧いただけます。
English
The ability to track general whole-body motions in the real world is a useful
way to build general-purpose humanoid robots. However, achieving this can be
challenging due to the temporal and kinematic diversity of the motions, the
policy's capability, and the difficulty of coordination of the upper and lower
bodies. To address these issues, we propose GMT, a general and scalable
motion-tracking framework that trains a single unified policy to enable
humanoid robots to track diverse motions in the real world. GMT is built upon
two core components: an Adaptive Sampling strategy and a Motion
Mixture-of-Experts (MoE) architecture. The Adaptive Sampling automatically
balances easy and difficult motions during training. The MoE ensures better
specialization of different regions of the motion manifold. We show through
extensive experiments in both simulation and the real world the effectiveness
of GMT, achieving state-of-the-art performance across a broad spectrum of
motions using a unified general policy. Videos and additional information can
be found at https://gmt-humanoid.github.io.