Humanoid-GPT: Масштабирование данных и структуры для zero-shot отслеживания движений

Аннотация

Мы представляем Humanoid-GPT, трансформер в стиле GPT с каузальным вниманием, обученный на корпусе движений миллиардного масштаба для управления всем телом. В отличие от предыдущих неглубоких трекеров на MLP, ограниченных нехваткой данных и компромиссом между ловкостью и обобщением, Humanoid-GPT предварительно обучен на перенацеленном корпусе из 2 миллиардов кадров, который объединяет все основные наборы данных захвата движения с крупномасштабными внутренними записями. Масштабирование как данных, так и емкости модели дает единый генеративный трансформер, который отслеживает высокодинамичные поведения, достигая при этом беспрецедентного обобщения без обучения на неизвестные движения и задачи управления. Обширные эксперименты и анализ масштабирования показывают, что наша модель устанавливает новый рубеж производительности, демонстрируя надежное обобщение без обучения на неизвестные задачи при одновременном отслеживании высокодинамичных и сложных движений.

English

We introduce Humanoid-GPT, a GPT-style Transformer with causal attention trained on a billion-scale motion corpus for whole-body control. Unlike prior shallow MLP trackers constrained by scarce data and an agility-generalization trade-off, Humanoid-GPT is pre-trained on a 2B-frame retargeted corpus that unifies all major mocap datasets with large-scale in-house recordings. Scaling both data and model capacity yields a single generative Transformer that tracks highly dynamic behaviors while achieving unprecedented zero-shot generalization to unseen motions and control tasks. Extensive experiments and scaling analyses show that our model establishes a new performance frontier, demonstrating robust zero-shot generalization to unseen tasks while simultaneously tracking highly dynamic and complex motions.