ChatPaper.aiChatPaper

Humanoid-GPT: Skalierung von Daten und Struktur für Zero-Shot Motion Tracking

Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking

June 2, 2026
Autoren: Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi
cs.AI

Zusammenfassung

Wir stellen Humanoid-GPT vor, einen GPT-artigen Transformer mit kausaler Aufmerksamkeit, der auf einem Bewegungskorpus im Milliarden-Maßstab für die Ganzkörpersteuerung trainiert wurde. Im Gegensatz zu früheren flachen MLP-Trackern, die durch knappe Daten und einen Agilitäts-Generalisierungs-Kompromiss eingeschränkt sind, wird Humanoid-GPT auf einem 2B-Frame-retargetierten Korpus vortrainiert, das alle wichtigen Motion-Capture-Datensätze mit großangelegten hausinternen Aufnahmen vereint. Die Skalierung sowohl von Daten als auch von Modellkapazität ergibt einen einzigen generativen Transformer, der hochdynamische Verhaltensweisen verfolgt und gleichzeitig eine beispiellose Zero-Shot-Generalisierung auf unbekannte Bewegungen und Steuerungsaufgaben erreicht. Umfangreiche Experimente und Skalierungsanalysen zeigen, dass unser Modell eine neue Leistungsgrenze setzt, indem es eine robuste Zero-Shot-Generalisierung auf unbekannte Aufgaben demonstriert und gleichzeitig hochdynamische und komplexe Bewegungen verfolgt.
English
We introduce Humanoid-GPT, a GPT-style Transformer with causal attention trained on a billion-scale motion corpus for whole-body control. Unlike prior shallow MLP trackers constrained by scarce data and an agility-generalization trade-off, Humanoid-GPT is pre-trained on a 2B-frame retargeted corpus that unifies all major mocap datasets with large-scale in-house recordings. Scaling both data and model capacity yields a single generative Transformer that tracks highly dynamic behaviors while achieving unprecedented zero-shot generalization to unseen motions and control tasks. Extensive experiments and scaling analyses show that our model establishes a new performance frontier, demonstrating robust zero-shot generalization to unseen tasks while simultaneously tracking highly dynamic and complex motions.