ChatPaper.aiChatPaper

일반화 가능한 모션 생성의 과제: 데이터, 모델, 평가

The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

October 30, 2025
저자: Jing Lin, Ruisi Wang, Junzhe Lu, Ziqi Huang, Guorui Song, Ailing Zeng, Xian Liu, Chen Wei, Wanqi Yin, Qingping Sun, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI

초록

최근 표준 벤치마크에서 3D 인간 모션 생성(MoGen) 기술이 발전했음에도 불구하고, 기존 모델들은 일반화 능력에 있어 근본적인 한계에 직면해 있습니다. 이와 대조적으로, 가장 두드러지게 비디오 생성(ViGen)을 포함한 인접 생성 분야는 인간 행동 모델링에서 뛰어난 일반화 능력을 입증하며, MoGen이 활용할 수 있는 전이 가능한 통찰력을 부각시켰습니다. 이러한 관찰에 동기를 받아, 우리는 데이터, 모델링, 평가라는 세 가지 핵심 축에서 ViGen의 지식을 MoGen으로 체계적으로 전이하는 포괄적인 프레임워크를 제시합니다. 먼저, 고품질 광학 MoCap 데이터와 웹 비디오의 의미론적 주석이 달린 모션, 그리고 최신 ViGen 모델로 생성된 합성 샘플을 통합한 228,000개의 고품질 모션 샘플로 구성된 대규모 데이터셋인 ViMoGen-228K를 소개합니다. 이 데이터셋은 텍스트-모션 쌍과 텍스트-비디오-모션 삼중항을 모두 포함하여 의미론적 다양성을 크게 확장합니다. 둘째, 우리는 게이트 다중모드 조건화를 통해 MoCap 데이터와 ViGen 모델의 사전 지식을 통합하는 플로우 매칭 기반 확산 트랜스포머인 ViMoGen을 제안합니다. 효율성을 높이기 위해, 비디오 생성 의존성을 제거하면서도 강력한 일반화 성능을 유지하는 경량화 변형인 ViMoGen-light를 추가로 개발했습니다. 마지막으로, 모션 품질, 프롬프트 정확도, 일반화 능력에 걸친 세분화된 평가를 위해 설계된 계층적 벤치마크인 MBench를 제시합니다. 광범위한 실험을 통해 우리의 프레임워크가 자동 및 인간 평가 모두에서 기존 접근법을 크게 능가함을 보여줍니다. 코드, 데이터 및 벤치마크는 공개될 예정입니다.
English
Despite recent advances in 3D human motion generation (MoGen) on standard benchmarks, existing models still face a fundamental bottleneck in their generalization capability. In contrast, adjacent generative fields, most notably video generation (ViGen), have demonstrated remarkable generalization in modeling human behaviors, highlighting transferable insights that MoGen can leverage. Motivated by this observation, we present a comprehensive framework that systematically transfers knowledge from ViGen to MoGen across three key pillars: data, modeling, and evaluation. First, we introduce ViMoGen-228K, a large-scale dataset comprising 228,000 high-quality motion samples that integrates high-fidelity optical MoCap data with semantically annotated motions from web videos and synthesized samples generated by state-of-the-art ViGen models. The dataset includes both text-motion pairs and text-video-motion triplets, substantially expanding semantic diversity. Second, we propose ViMoGen, a flow-matching-based diffusion transformer that unifies priors from MoCap data and ViGen models through gated multimodal conditioning. To enhance efficiency, we further develop ViMoGen-light, a distilled variant that eliminates video generation dependencies while preserving strong generalization. Finally, we present MBench, a hierarchical benchmark designed for fine-grained evaluation across motion quality, prompt fidelity, and generalization ability. Extensive experiments show that our framework significantly outperforms existing approaches in both automatic and human evaluations. The code, data, and benchmark will be made publicly available.
PDF261December 2, 2025