Humanoid-GPT: Opschalen van data en structuur voor zero-shot bewegingsvolgen
Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking
June 2, 2026
Auteurs: Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi
cs.AI
Samenvatting
Wij introduceren Humanoid-GPT, een GPT-achtige Transformer met causale aandacht, getraind op een bewegingscorpus van miljarden schaal voor volledige lichaamscontrole. In tegenstelling tot eerdere ondiepe MLP-trackers die werden beperkt door schaarse data en een afweging tussen behendigheid en generalisatie, is Humanoid-GPT voorgetraind op een 2B-frame herdoelgericht corpus dat alle belangrijke motion capture-datasets verenigt met grootschalige interne opnames. Het opschalen van zowel data als modelcapaciteit levert een enkele generatieve Transformer op die zeer dynamisch gedrag volgt, terwijl het een ongekende zero-shot generalisatie naar ongeziene bewegingen en besturingstaken bereikt. Uitgebreide experimenten en schaalanalyses tonen aan dat ons model een nieuwe prestatiegrens vestigt, waarbij het robuuste zero-shot generalisatie naar ongeziene taken demonstreert terwijl het tegelijkertijd zeer dynamische en complexe bewegingen volgt.
English
We introduce Humanoid-GPT, a GPT-style Transformer with causal attention trained on a billion-scale motion corpus for whole-body control. Unlike prior shallow MLP trackers constrained by scarce data and an agility-generalization trade-off, Humanoid-GPT is pre-trained on a 2B-frame retargeted corpus that unifies all major mocap datasets with large-scale in-house recordings. Scaling both data and model capacity yields a single generative Transformer that tracks highly dynamic behaviors while achieving unprecedented zero-shot generalization to unseen motions and control tasks. Extensive experiments and scaling analyses show that our model establishes a new performance frontier, demonstrating robust zero-shot generalization to unseen tasks while simultaneously tracking highly dynamic and complex motions.