Humanoid-GPT : Mise à l’échelle des données et de la structure pour le suivi de mouvement zéro-shot

Résumé

Nous présentons Humanoid-GPT, un Transformer de type GPT avec attention causale entraîné sur un corpus de mouvement à l’échelle du milliard pour le contrôle du corps entier. Contrairement aux précédents trackers MLP peu profonds contraints par des données rares et un compromis agilité-généralisation, Humanoid-GPT est pré-entraîné sur un corpus retargeté de 2 milliards de trames qui unifie tous les principaux ensembles de données de capture de mouvement avec des enregistrements internes à grande échelle. L’augmentation de l’échelle des données et de la capacité du modèle produit un seul Transformer génératif qui suit des comportements très dynamiques tout en réalisant une généralisation zéro-shot sans précédent à des mouvements et des tâches de contrôle inédits. Des expériences approfondies et des analyses de mise à l’échelle montrent que notre modèle établit une nouvelle frontière de performance, démontrant une généralisation zéro-shot robuste à des tâches inédites tout en suivant simultanément des mouvements très dynamiques et complexes.

English

We introduce Humanoid-GPT, a GPT-style Transformer with causal attention trained on a billion-scale motion corpus for whole-body control. Unlike prior shallow MLP trackers constrained by scarce data and an agility-generalization trade-off, Humanoid-GPT is pre-trained on a 2B-frame retargeted corpus that unifies all major mocap datasets with large-scale in-house recordings. Scaling both data and model capacity yields a single generative Transformer that tracks highly dynamic behaviors while achieving unprecedented zero-shot generalization to unseen motions and control tasks. Extensive experiments and scaling analyses show that our model establishes a new performance frontier, demonstrating robust zero-shot generalization to unseen tasks while simultaneously tracking highly dynamic and complex motions.