A Busca pela Geração de Movimento Generalizável: Dados, Modelo e Avaliação
The Quest for Generalizable Motion Generation: Data, Model, and Evaluation
October 30, 2025
Autores: Jing Lin, Ruisi Wang, Junzhe Lu, Ziqi Huang, Guorui Song, Ailing Zeng, Xian Liu, Chen Wei, Wanqi Yin, Qingping Sun, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Resumo
Apesar dos avanços recentes na geração de movimento humano 3D (MoGen) em benchmarks padrão, os modelos existentes ainda enfrentam um gargalo fundamental em sua capacidade de generalização. Em contraste, áreas generativas adjacentes, mais notavelmente a geração de vídeo (ViGen), demonstraram uma generalização notável na modelagem de comportamentos humanos, destacando insights transferíveis que a MoGen pode aproveitar. Motivados por essa observação, apresentamos uma estrutura abrangente que transfere sistematicamente o conhecimento da ViGen para a MoGen em três pilares principais: dados, modelagem e avaliação.
Primeiro, introduzimos o ViMoGen-228K, um conjunto de dados em larga escala composto por 228.000 amostras de movimento de alta qualidade que integra dados ópticos MoCap de alta fidelidade com movimentos semanticamente anotados de vídeos da web e amostras sintetizadas geradas por modelos ViGen state-of-the-art. O conjunto de dados inclui pares texto-movimento e trios texto-vídeo-movimento, expandindo substancialmente a diversidade semântica.
Em segundo lugar, propomos o ViMoGen, um transformer de difusão baseado em *flow matching* que unifica *priors* de dados MoCap e modelos ViGen por meio de condicionamento multimodal com portas lógicas (*gated*). Para melhorar a eficiência, desenvolvemos ainda o ViMoGen-light, uma variante destilada que elimina dependências de geração de vídeo, preservando uma forte generalização.
Finalmente, apresentamos o MBench, um benchmark hierárquico projetado para avaliação refinada em qualidade de movimento, fidelidade ao *prompt* e capacidade de generalização. Experimentos extensivos mostram que nossa estrutura supera significativamente as abordagens existentes em avaliações automáticas e humanas. O código, os dados e o benchmark serão disponibilizados publicamente.
English
Despite recent advances in 3D human motion generation (MoGen) on standard
benchmarks, existing models still face a fundamental bottleneck in their
generalization capability. In contrast, adjacent generative fields, most
notably video generation (ViGen), have demonstrated remarkable generalization
in modeling human behaviors, highlighting transferable insights that MoGen can
leverage. Motivated by this observation, we present a comprehensive framework
that systematically transfers knowledge from ViGen to MoGen across three key
pillars: data, modeling, and evaluation. First, we introduce ViMoGen-228K, a
large-scale dataset comprising 228,000 high-quality motion samples that
integrates high-fidelity optical MoCap data with semantically annotated motions
from web videos and synthesized samples generated by state-of-the-art ViGen
models. The dataset includes both text-motion pairs and text-video-motion
triplets, substantially expanding semantic diversity. Second, we propose
ViMoGen, a flow-matching-based diffusion transformer that unifies priors from
MoCap data and ViGen models through gated multimodal conditioning. To enhance
efficiency, we further develop ViMoGen-light, a distilled variant that
eliminates video generation dependencies while preserving strong
generalization. Finally, we present MBench, a hierarchical benchmark designed
for fine-grained evaluation across motion quality, prompt fidelity, and
generalization ability. Extensive experiments show that our framework
significantly outperforms existing approaches in both automatic and human
evaluations. The code, data, and benchmark will be made publicly available.