Humanoid-GPT: Escalando Dados e Estrutura para Rastreamento de Movimento Zero-Shot
Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking
June 2, 2026
Autores: Zekun Qi, Xuchuan Chen, Dairu Liu, Chenghuai Lin, Yunrui Lian, Sikai Liang, Zhikai Zhang, Yu Guan, Jilong Wang, Wenyao Zhang, Xinqiang Yu, He Wang, Li Yi
cs.AI
Resumo
Apresentamos o Humanoid-GPT, um Transformer no estilo GPT com atenção causal treinado em um corpus de movimento em escala de bilhões para controle corporal completo. Diferentemente de rastreadores MLP rasos anteriores, limitados por dados escassos e um compromisso entre agilidade e generalização, o Humanoid-GPT é pré-treinado em um corpus retargeted de 2 bilhões de quadros que unifica todos os principais conjuntos de dados de captura de movimento com gravações internas em larga escala. O escalonamento tanto dos dados quanto da capacidade do modelo produz um único Transformer generativo que rastreia comportamentos altamente dinâmicos, ao mesmo tempo que alcança generalização zero-shot sem precedentes para movimentos e tarefas de controle não vistos. Experimentos extensivos e análises de escalonamento mostram que nosso modelo estabelece uma nova fronteira de desempenho, demonstrando generalização zero-shot robusta para tarefas não vistas enquanto rastreia simultaneamente movimentos complexos e altamente dinâmicos.
English
We introduce Humanoid-GPT, a GPT-style Transformer with causal attention trained on a billion-scale motion corpus for whole-body control. Unlike prior shallow MLP trackers constrained by scarce data and an agility-generalization trade-off, Humanoid-GPT is pre-trained on a 2B-frame retargeted corpus that unifies all major mocap datasets with large-scale in-house recordings. Scaling both data and model capacity yields a single generative Transformer that tracks highly dynamic behaviors while achieving unprecedented zero-shot generalization to unseen motions and control tasks. Extensive experiments and scaling analyses show that our model establishes a new performance frontier, demonstrating robust zero-shot generalization to unseen tasks while simultaneously tracking highly dynamic and complex motions.