一般化可能なモーション生成を目指して:データ、モデル、評価
The Quest for Generalizable Motion Generation: Data, Model, and Evaluation
October 30, 2025
著者: Jing Lin, Ruisi Wang, Junzhe Lu, Ziqi Huang, Guorui Song, Ailing Zeng, Xian Liu, Chen Wei, Wanqi Yin, Qingping Sun, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
要旨
標準的なベンチマークにおける3次元人体動作生成(MoGen)の近年の進展にもかかわらず、既存モデルはその汎化能力において根本的なボトルネックに直面している。一方、隣接する生成分野、特に映像生成(ViGen)は、人間の行動モデリングにおいて顕著な汎化性能を示しており、MoGenが活用できる転移可能な知見を浮き彫りにしている。この観察に動機づけられ、我々はデータ、モデリング、評価という3つの重要な柱において、ViGenからMoGenへの知識を体系的に転移する包括的フレームワークを提案する。まず、高精細光学式モーションキャプチャデータと、Webビデオからの意味的注釈付き動作、および最先端ViGenモデルによって生成された合成サンプルを統合した、22万8,000件の高品質な動作サンプルからなる大規模データセットViMoGen-228Kを紹介する。このデータセットはテキスト-動作ペアとテキスト-映像-動作トリプレットを含み、意味的多様性を大幅に拡張する。次に、MoCapデータとViGenモデルからの事前分布をゲート型マルチモーダル条件付けによって統合する、フローマッチングベースの拡散トランスフォーマーであるViMoGenを提案する。効率性を高めるため、映像生成への依存性を排除しながら強力な汎化性能を維持する蒸留版であるViMoGen-lightをさらに開発した。最後に、動作品質、プロンプト忠実度、汎化能力にわたる詳細な評価のための階層的ベンチマークMBenchを提示する。大規模な実験により、本フレームワークが自動評価および人間評価の両方において既存手法を大幅に上回ることを示す。コード、データ、ベンチマークは公開予定である。
English
Despite recent advances in 3D human motion generation (MoGen) on standard
benchmarks, existing models still face a fundamental bottleneck in their
generalization capability. In contrast, adjacent generative fields, most
notably video generation (ViGen), have demonstrated remarkable generalization
in modeling human behaviors, highlighting transferable insights that MoGen can
leverage. Motivated by this observation, we present a comprehensive framework
that systematically transfers knowledge from ViGen to MoGen across three key
pillars: data, modeling, and evaluation. First, we introduce ViMoGen-228K, a
large-scale dataset comprising 228,000 high-quality motion samples that
integrates high-fidelity optical MoCap data with semantically annotated motions
from web videos and synthesized samples generated by state-of-the-art ViGen
models. The dataset includes both text-motion pairs and text-video-motion
triplets, substantially expanding semantic diversity. Second, we propose
ViMoGen, a flow-matching-based diffusion transformer that unifies priors from
MoCap data and ViGen models through gated multimodal conditioning. To enhance
efficiency, we further develop ViMoGen-light, a distilled variant that
eliminates video generation dependencies while preserving strong
generalization. Finally, we present MBench, a hierarchical benchmark designed
for fine-grained evaluation across motion quality, prompt fidelity, and
generalization ability. Extensive experiments show that our framework
significantly outperforms existing approaches in both automatic and human
evaluations. The code, data, and benchmark will be made publicly available.