La ricerca di una generazione del movimento generalizzabile: Dati, Modello e Valutazione
The Quest for Generalizable Motion Generation: Data, Model, and Evaluation
October 30, 2025
Autori: Jing Lin, Ruisi Wang, Junzhe Lu, Ziqi Huang, Guorui Song, Ailing Zeng, Xian Liu, Chen Wei, Wanqi Yin, Qingping Sun, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Abstract
Nonostante i recenti progressi nella generazione di moto umano 3D (MoGen) sui benchmark standard, i modelli esistenti affrontano ancora un collo di bottiglia fondamentale nella loro capacità di generalizzazione. Al contrario, campi generativi adiacenti, in particolare la generazione video (ViGen), hanno dimostrato una notevole generalizzazione nella modellazione dei comportamenti umani, evidenziando intuizioni trasferibili che il MoGen può sfruttare. Motivati da questa osservazione, presentiamo un framework completo che trasferisce sistematicamente la conoscenza dalla ViGen alla MoGen attraverso tre pilastri chiave: dati, modellazione e valutazione. In primo luogo, introduciamo ViMoGen-228K, un dataset su larga scala comprendente 228.000 campioni di moto di alta qualità che integra dati ottici MoCap ad alta fedeltà con movimenti semanticamente annotati da video web e campioni sintetizzati generati da modelli ViGen all'avanguardia. Il dataset include sia coppie testo-moto che triplette testo-video-moto, espandendo sostanzialmente la diversità semantica. In secondo luogo, proponiamo ViMoGen, un diffusion transformer basato sul flow matching che unisce i priori dei dati MoCap e dei modelli ViGen attraverso un condizionamento multimodale gated. Per migliorare l'efficienza, sviluppiamo ulteriormente ViMoGen-light, una variante distillata che elimina le dipendenze dalla generazione video preservando una forte generalizzazione. Infine, presentiamo MBench, un benchmark gerarchico progettato per una valutazione granulare su qualità del movimento, fedeltà alla descrizione testuale e capacità di generalizzazione. Esperimenti estensivi mostrano che il nostro framework supera significativamente gli approcci esistenti sia nelle valutazioni automatiche che umane. Il codice, i dati e il benchmark saranno resi pubblicamente disponibili.
English
Despite recent advances in 3D human motion generation (MoGen) on standard
benchmarks, existing models still face a fundamental bottleneck in their
generalization capability. In contrast, adjacent generative fields, most
notably video generation (ViGen), have demonstrated remarkable generalization
in modeling human behaviors, highlighting transferable insights that MoGen can
leverage. Motivated by this observation, we present a comprehensive framework
that systematically transfers knowledge from ViGen to MoGen across three key
pillars: data, modeling, and evaluation. First, we introduce ViMoGen-228K, a
large-scale dataset comprising 228,000 high-quality motion samples that
integrates high-fidelity optical MoCap data with semantically annotated motions
from web videos and synthesized samples generated by state-of-the-art ViGen
models. The dataset includes both text-motion pairs and text-video-motion
triplets, substantially expanding semantic diversity. Second, we propose
ViMoGen, a flow-matching-based diffusion transformer that unifies priors from
MoCap data and ViGen models through gated multimodal conditioning. To enhance
efficiency, we further develop ViMoGen-light, a distilled variant that
eliminates video generation dependencies while preserving strong
generalization. Finally, we present MBench, a hierarchical benchmark designed
for fine-grained evaluation across motion quality, prompt fidelity, and
generalization ability. Extensive experiments show that our framework
significantly outperforms existing approaches in both automatic and human
evaluations. The code, data, and benchmark will be made publicly available.