Humanoid-GPT: Skalierung von Daten und Struktur für Zero-Shot Motion Tracking

Zusammenfassung

Wir stellen Humanoid-GPT vor, einen GPT-artigen Transformer mit kausaler Aufmerksamkeit, der auf einem Bewegungskorpus im Milliarden-Maßstab für die Ganzkörpersteuerung trainiert wurde. Im Gegensatz zu früheren flachen MLP-Trackern, die durch knappe Daten und einen Agilitäts-Generalisierungs-Kompromiss eingeschränkt sind, wird Humanoid-GPT auf einem 2B-Frame-retargetierten Korpus vortrainiert, das alle wichtigen Motion-Capture-Datensätze mit großangelegten hausinternen Aufnahmen vereint. Die Skalierung sowohl von Daten als auch von Modellkapazität ergibt einen einzigen generativen Transformer, der hochdynamische Verhaltensweisen verfolgt und gleichzeitig eine beispiellose Zero-Shot-Generalisierung auf unbekannte Bewegungen und Steuerungsaufgaben erreicht. Umfangreiche Experimente und Skalierungsanalysen zeigen, dass unser Modell eine neue Leistungsgrenze setzt, indem es eine robuste Zero-Shot-Generalisierung auf unbekannte Aufgaben demonstriert und gleichzeitig hochdynamische und komplexe Bewegungen verfolgt.

English

We introduce Humanoid-GPT, a GPT-style Transformer with causal attention trained on a billion-scale motion corpus for whole-body control. Unlike prior shallow MLP trackers constrained by scarce data and an agility-generalization trade-off, Humanoid-GPT is pre-trained on a 2B-frame retargeted corpus that unifies all major mocap datasets with large-scale in-house recordings. Scaling both data and model capacity yields a single generative Transformer that tracks highly dynamic behaviors while achieving unprecedented zero-shot generalization to unseen motions and control tasks. Extensive experiments and scaling analyses show that our model establishes a new performance frontier, demonstrating robust zero-shot generalization to unseen tasks while simultaneously tracking highly dynamic and complex motions.