La búsqueda de generación de movimiento generalizable: Datos, modelo y evaluación
The Quest for Generalizable Motion Generation: Data, Model, and Evaluation
October 30, 2025
Autores: Jing Lin, Ruisi Wang, Junzhe Lu, Ziqi Huang, Guorui Song, Ailing Zeng, Xian Liu, Chen Wei, Wanqi Yin, Qingping Sun, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Resumen
A pesar de los recientes avances en la generación de movimiento humano en 3D (MoGen) en los benchmarks estándar, los modelos existentes aún se enfrentan a un cuello de botella fundamental en su capacidad de generalización. En contraste, campos generativos adyacentes, notablemente la generación de vídeo (ViGen), han demostrado una generalización notable en el modelado de conductas humanas, resaltando perspectivas transferibles que el MoGen puede aprovechar. Motivados por esta observación, presentamos un marco integral que transfiere sistemáticamente el conocimiento del ViGen al MoGen a través de tres pilares clave: datos, modelado y evaluación. En primer lugar, presentamos ViMoGen-228K, un conjunto de datos a gran escala que comprende 228.000 muestras de movimiento de alta calidad que integra datos ópticos MoCap de alta fidelidad con movimientos anotados semánticamente de vídeos web y muestras sintetizadas generadas por modelos ViGen de vanguardia. El conjunto de datos incluye tanto pares texto-movimiento como trillizos texto-vídeo-movimiento, expandiendo sustancialmente la diversidad semántica. En segundo lugar, proponemos ViMoGen, un transformador de difusión basado en emparejamiento de flujos que unifica *priors* de datos MoCap y modelos ViGen mediante un condicionamiento multimodal con puertas. Para mejorar la eficiencia, desarrollamos además ViMoGen-light, una variante destilada que elimina las dependencias de la generación de vídeo mientras preserva una fuerte generalización. Finalmente, presentamos MBench, un benchmark jerárquico diseñado para una evaluación de grano fino en la calidad del movimiento, la fidelidad al prompt y la capacidad de generalización. Experimentos exhaustivos muestran que nuestro marco supera significativamente a los enfoques existentes tanto en evaluaciones automáticas como humanas. El código, los datos y el benchmark estarán disponibles públicamente.
English
Despite recent advances in 3D human motion generation (MoGen) on standard
benchmarks, existing models still face a fundamental bottleneck in their
generalization capability. In contrast, adjacent generative fields, most
notably video generation (ViGen), have demonstrated remarkable generalization
in modeling human behaviors, highlighting transferable insights that MoGen can
leverage. Motivated by this observation, we present a comprehensive framework
that systematically transfers knowledge from ViGen to MoGen across three key
pillars: data, modeling, and evaluation. First, we introduce ViMoGen-228K, a
large-scale dataset comprising 228,000 high-quality motion samples that
integrates high-fidelity optical MoCap data with semantically annotated motions
from web videos and synthesized samples generated by state-of-the-art ViGen
models. The dataset includes both text-motion pairs and text-video-motion
triplets, substantially expanding semantic diversity. Second, we propose
ViMoGen, a flow-matching-based diffusion transformer that unifies priors from
MoCap data and ViGen models through gated multimodal conditioning. To enhance
efficiency, we further develop ViMoGen-light, a distilled variant that
eliminates video generation dependencies while preserving strong
generalization. Finally, we present MBench, a hierarchical benchmark designed
for fine-grained evaluation across motion quality, prompt fidelity, and
generalization ability. Extensive experiments show that our framework
significantly outperforms existing approaches in both automatic and human
evaluations. The code, data, and benchmark will be made publicly available.