Humanoid-GPT: Масштабирование данных и структуры для zero-shot отслеживания движений
Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking
June 2, 2026
Авторы: Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi
cs.AI
Аннотация
Мы представляем Humanoid-GPT, трансформер в стиле GPT с каузальным вниманием, обученный на корпусе движений миллиардного масштаба для управления всем телом. В отличие от предыдущих неглубоких трекеров на MLP, ограниченных нехваткой данных и компромиссом между ловкостью и обобщением, Humanoid-GPT предварительно обучен на перенацеленном корпусе из 2 миллиардов кадров, который объединяет все основные наборы данных захвата движения с крупномасштабными внутренними записями. Масштабирование как данных, так и емкости модели дает единый генеративный трансформер, который отслеживает высокодинамичные поведения, достигая при этом беспрецедентного обобщения без обучения на неизвестные движения и задачи управления. Обширные эксперименты и анализ масштабирования показывают, что наша модель устанавливает новый рубеж производительности, демонстрируя надежное обобщение без обучения на неизвестные задачи при одновременном отслеживании высокодинамичных и сложных движений.
English
We introduce Humanoid-GPT, a GPT-style Transformer with causal attention trained on a billion-scale motion corpus for whole-body control. Unlike prior shallow MLP trackers constrained by scarce data and an agility-generalization trade-off, Humanoid-GPT is pre-trained on a 2B-frame retargeted corpus that unifies all major mocap datasets with large-scale in-house recordings. Scaling both data and model capacity yields a single generative Transformer that tracks highly dynamic behaviors while achieving unprecedented zero-shot generalization to unseen motions and control tasks. Extensive experiments and scaling analyses show that our model establishes a new performance frontier, demonstrating robust zero-shot generalization to unseen tasks while simultaneously tracking highly dynamic and complex motions.