Humanoid-GPT : Mise à l’échelle des données et de la structure pour le suivi de mouvement zéro-shot
Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking
June 2, 2026
Auteurs: Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi
cs.AI
Résumé
Nous présentons Humanoid-GPT, un Transformer de type GPT avec attention causale entraîné sur un corpus de mouvement à l’échelle du milliard pour le contrôle du corps entier. Contrairement aux précédents trackers MLP peu profonds contraints par des données rares et un compromis agilité-généralisation, Humanoid-GPT est pré-entraîné sur un corpus retargeté de 2 milliards de trames qui unifie tous les principaux ensembles de données de capture de mouvement avec des enregistrements internes à grande échelle. L’augmentation de l’échelle des données et de la capacité du modèle produit un seul Transformer génératif qui suit des comportements très dynamiques tout en réalisant une généralisation zéro-shot sans précédent à des mouvements et des tâches de contrôle inédits. Des expériences approfondies et des analyses de mise à l’échelle montrent que notre modèle établit une nouvelle frontière de performance, démontrant une généralisation zéro-shot robuste à des tâches inédites tout en suivant simultanément des mouvements très dynamiques et complexes.
English
We introduce Humanoid-GPT, a GPT-style Transformer with causal attention trained on a billion-scale motion corpus for whole-body control. Unlike prior shallow MLP trackers constrained by scarce data and an agility-generalization trade-off, Humanoid-GPT is pre-trained on a 2B-frame retargeted corpus that unifies all major mocap datasets with large-scale in-house recordings. Scaling both data and model capacity yields a single generative Transformer that tracks highly dynamic behaviors while achieving unprecedented zero-shot generalization to unseen motions and control tasks. Extensive experiments and scaling analyses show that our model establishes a new performance frontier, demonstrating robust zero-shot generalization to unseen tasks while simultaneously tracking highly dynamic and complex motions.