Die Suche nach verallgemeinerbarer Bewegungsgenerierung: Daten, Modell und Evaluation
The Quest for Generalizable Motion Generation: Data, Model, and Evaluation
October 30, 2025
papers.authors: Jing Lin, Ruisi Wang, Junzhe Lu, Ziqi Huang, Guorui Song, Ailing Zeng, Xian Liu, Chen Wei, Wanqi Yin, Qingping Sun, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
papers.abstract
Trotz jüngster Fortschritte bei der 3D-Erzeugung menschlicher Bewegungen (MoGen) in Standardbenchmarks stoßen bestehende Modelle nach wie vor auf einen grundlegenden Flaschenhals in ihrer Generalisierungsfähigkeit. Im Gegensatz dazu haben benachbarte generative Bereiche, insbesondere die Videogenerierung (ViGen), eine bemerkenswerte Generalisierung bei der Modellierung menschlicher Verhaltensweisen gezeigt, was übertragbare Erkenntnisse hervorhebt, die MoGen nutzen kann. Motiviert durch diese Beobachtung stellen wir einen umfassenden Rahmen vor, der systematisch Wissen aus der ViGen in drei Schlüsselbereichen auf die MoGen überträgt: Daten, Modellierung und Evaluation. Erstens führen wir ViMoGen-228K ein, einen großen Datensatz mit 228.000 hochwertigen Bewegungsmustern, der hochauflösende optische MoCap-Daten mit semantisch annotierten Bewegungen aus Webvideos und synthetisierten Stichproben von modernsten ViGen-Modellen integriert. Der Datensatz umfasst sowohl Text-Bewegungs-Paare als auch Text-Video-Bewegungs-Tripel und erweitert die semantische Vielfalt erheblich. Zweitens schlagen wir ViMoGen vor, einen auf Flow Matching basierenden Diffusion-Transformer, der Priors aus MoCap-Daten und ViGen-Modellen durch gated multimodale Konditionierung vereinheitlicht. Um die Effizienz zu steigern, entwickeln wir weiterhin ViMoGen-light, eine destillierte Variante, die Abhängigkeiten von der Videogenerierung eliminiert, dabei aber eine starke Generalisierung beibehält. Schließlich präsentieren wir MBench, einen hierarchischen Benchmark, der für eine feingranulare Evaluation über Bewegungsqualität, Prompt-Treue und Generalisierungsfähigkeit konzipiert ist. Umfangreiche Experimente zeigen, dass unser Rahmenwerk bestehende Ansätze in sowohl automatischen als auch humanen Evaluationen signifikant übertrifft. Der Code, die Daten und der Benchmark werden öffentlich verfügbar gemacht.
English
Despite recent advances in 3D human motion generation (MoGen) on standard
benchmarks, existing models still face a fundamental bottleneck in their
generalization capability. In contrast, adjacent generative fields, most
notably video generation (ViGen), have demonstrated remarkable generalization
in modeling human behaviors, highlighting transferable insights that MoGen can
leverage. Motivated by this observation, we present a comprehensive framework
that systematically transfers knowledge from ViGen to MoGen across three key
pillars: data, modeling, and evaluation. First, we introduce ViMoGen-228K, a
large-scale dataset comprising 228,000 high-quality motion samples that
integrates high-fidelity optical MoCap data with semantically annotated motions
from web videos and synthesized samples generated by state-of-the-art ViGen
models. The dataset includes both text-motion pairs and text-video-motion
triplets, substantially expanding semantic diversity. Second, we propose
ViMoGen, a flow-matching-based diffusion transformer that unifies priors from
MoCap data and ViGen models through gated multimodal conditioning. To enhance
efficiency, we further develop ViMoGen-light, a distilled variant that
eliminates video generation dependencies while preserving strong
generalization. Finally, we present MBench, a hierarchical benchmark designed
for fine-grained evaluation across motion quality, prompt fidelity, and
generalization ability. Extensive experiments show that our framework
significantly outperforms existing approaches in both automatic and human
evaluations. The code, data, and benchmark will be made publicly available.