De zoektocht naar generaliseerbare bewegingsgeneratie: Data, Model en Evaluatie
The Quest for Generalizable Motion Generation: Data, Model, and Evaluation
October 30, 2025
Auteurs: Jing Lin, Ruisi Wang, Junzhe Lu, Ziqi Huang, Guorui Song, Ailing Zeng, Xian Liu, Chen Wei, Wanqi Yin, Qingping Sun, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Samenvatting
Ondanks recente vooruitgang in 3D-generatie van menselijke beweging (MoGen) op standaardbenchmarks, kampen bestaande modellen nog steeds met een fundamenteel knelpunt in hun generalisatievermogen. Daarentegen hebben aanverwante generatieve velden, met name videogeneratie (ViGen), een opmerkelijke generalisatie getoond in het modelleren van menselijk gedrag, wat overdraagbare inzichten benadrukt die MoGen kan benutten. Gemotiveerd door deze observatie presenteren we een uitgebreid raamwerk dat systematisch kennis overdraagt van ViGen naar MoGen via drie belangrijke pijlers: data, modellering en evaluatie.
Ten eerste introduceren we ViMoGen-228K, een grootschalige dataset bestaande uit 228.000 hoogwaardige bewegingsmonsters die hoogfidelieke optische MoCap-data integreert met semantisch geannoteerde bewegingen uit webvideo's en gesynthetiseerde monsters gegenereerd door state-of-the-art ViGen-modellen. De dataset omvat zowel tekst-beweging-paren als tekst-video-beweging-triplets, waardoor de semantische diversiteit aanzienlijk wordt uitgebreid.
Ten tweede stellen we ViMoGen voor, een op flow-matching gebaseerde diffusion transformer die voorkennis uit MoCap-data en ViGen-modellen verenigt door middel van gated multimodale conditionering. Om de efficiëntie te verbeteren, ontwikkelen we verder ViMoGen-light, een gedistilleerde variant die afhankelijkheden van videogeneratie elimineert terwijl sterke generalisatie behouden blijft.
Ten slotte presenteren we MBench, een hiërarchische benchmark ontworpen voor fijnmazige evaluatie op het gebied van bewegingskwaliteit, prompttrouw en generalisatievermogen. Uitgebreide experimenten tonen aan dat ons raamwerk bestaande benaderingen significant overtreft in zowel automatische als humane evaluaties. De code, data en benchmark zullen openbaar beschikbaar worden gesteld.
English
Despite recent advances in 3D human motion generation (MoGen) on standard
benchmarks, existing models still face a fundamental bottleneck in their
generalization capability. In contrast, adjacent generative fields, most
notably video generation (ViGen), have demonstrated remarkable generalization
in modeling human behaviors, highlighting transferable insights that MoGen can
leverage. Motivated by this observation, we present a comprehensive framework
that systematically transfers knowledge from ViGen to MoGen across three key
pillars: data, modeling, and evaluation. First, we introduce ViMoGen-228K, a
large-scale dataset comprising 228,000 high-quality motion samples that
integrates high-fidelity optical MoCap data with semantically annotated motions
from web videos and synthesized samples generated by state-of-the-art ViGen
models. The dataset includes both text-motion pairs and text-video-motion
triplets, substantially expanding semantic diversity. Second, we propose
ViMoGen, a flow-matching-based diffusion transformer that unifies priors from
MoCap data and ViGen models through gated multimodal conditioning. To enhance
efficiency, we further develop ViMoGen-light, a distilled variant that
eliminates video generation dependencies while preserving strong
generalization. Finally, we present MBench, a hierarchical benchmark designed
for fine-grained evaluation across motion quality, prompt fidelity, and
generalization ability. Extensive experiments show that our framework
significantly outperforms existing approaches in both automatic and human
evaluations. The code, data, and benchmark will be made publicly available.