La quête d'une génération de mouvement généralisable : Données, Modèle et Évaluation
The Quest for Generalizable Motion Generation: Data, Model, and Evaluation
October 30, 2025
papers.authors: Jing Lin, Ruisi Wang, Junzhe Lu, Ziqi Huang, Guorui Song, Ailing Zeng, Xian Liu, Chen Wei, Wanqi Yin, Qingping Sun, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
papers.abstract
Malgré les progrès récents dans la génération de mouvements humains 3D (MoGen) sur les référentiels standards, les modèles existants font toujours face à un goulot d'étranglement fondamental dans leur capacité de généralisation. En revanche, des domaines génératifs adjacents, notamment la génération vidéo (ViGen), ont démontré une généralisation remarquable dans la modélisation des comportements humains, mettant en lumière des enseignements transférables que MoGen peut exploiter. Motivés par cette observation, nous présentons un cadre complet qui transfère systématiquement les connaissances de ViGen vers MoGen selon trois piliers clés : les données, la modélisation et l'évaluation.
Premièrement, nous introduisons ViMoGen-228K, un jeu de données à grande échelle comprenant 228 000 échantillons de mouvements de haute qualité qui intègre des données optiques MoCap de haute fidélité avec des mouvements annotés sémantiquement provenant de vidéos web et des échantillons synthétisés générés par des modèles ViGen de pointe. Le jeu de données inclut à la fois des paires texte-mouvement et des triplets texte-vidéo-mouvement, élargissant considérablement la diversité sémantique.
Deuxièmement, nous proposons ViMoGen, un transformeur à diffusion basé sur le *flow matching* qui unifie les connaissances a priori des données MoCap et des modèles ViGen via un conditionnement multimodal à porte. Pour améliorer l'efficacité, nous développons en outre ViMoGen-light, une variante distillée qui élimine les dépendances à la génération vidéo tout en préservant une forte généralisation.
Enfin, nous présentons MBench, un référentiel hiérarchique conçu pour une évaluation fine du mouvement selon la qualité du mouvement, la fidélité à l'invite et la capacité de généralisation. Des expériences approfondies montrent que notre cadre surpasse significativement les approches existantes dans les évaluations automatiques et humaines. Le code, les données et le référentiel seront rendus publics.
English
Despite recent advances in 3D human motion generation (MoGen) on standard
benchmarks, existing models still face a fundamental bottleneck in their
generalization capability. In contrast, adjacent generative fields, most
notably video generation (ViGen), have demonstrated remarkable generalization
in modeling human behaviors, highlighting transferable insights that MoGen can
leverage. Motivated by this observation, we present a comprehensive framework
that systematically transfers knowledge from ViGen to MoGen across three key
pillars: data, modeling, and evaluation. First, we introduce ViMoGen-228K, a
large-scale dataset comprising 228,000 high-quality motion samples that
integrates high-fidelity optical MoCap data with semantically annotated motions
from web videos and synthesized samples generated by state-of-the-art ViGen
models. The dataset includes both text-motion pairs and text-video-motion
triplets, substantially expanding semantic diversity. Second, we propose
ViMoGen, a flow-matching-based diffusion transformer that unifies priors from
MoCap data and ViGen models through gated multimodal conditioning. To enhance
efficiency, we further develop ViMoGen-light, a distilled variant that
eliminates video generation dependencies while preserving strong
generalization. Finally, we present MBench, a hierarchical benchmark designed
for fine-grained evaluation across motion quality, prompt fidelity, and
generalization ability. Extensive experiments show that our framework
significantly outperforms existing approaches in both automatic and human
evaluations. The code, data, and benchmark will be made publicly available.