Поиск обобщаемых методов генерации движений: данные, модели и оценка
The Quest for Generalizable Motion Generation: Data, Model, and Evaluation
October 30, 2025
Авторы: Jing Lin, Ruisi Wang, Junzhe Lu, Ziqi Huang, Guorui Song, Ailing Zeng, Xian Liu, Chen Wei, Wanqi Yin, Qingping Sun, Zhongang Cai, Lei Yang, Ziwei Liu
cs.AI
Аннотация
Несмотря на недавние достижения в области генерации трёхмерных движений человека (MoGen) на стандартных бенчмарках, существующие модели по-прежнему сталкиваются с фундаментальным ограничением в их способности к обобщению. В отличие от этого, смежные области генеративного моделирования, в первую очередь генерация видео (ViGen), продемонстрировали впечатляющую способность к обобщению при моделировании человеческого поведения, выявляя передаваемые идеи, которые MoGen может использовать. Руководствуясь этим наблюдением, мы представляем комплексную структуру, которая систематически переносит знания из ViGen в MoGen по трём ключевым направлениям: данные, моделирование и оценка. Во-первых, мы представляем ViMoGen-228K, крупномасштабный набор данных, содержащий 228 000 высококачественных образцов движений, который объединяет высокоточные данные оптического MoCap с семантически аннотированными движениями из веб-видео и синтезированными образцами, созданными передовыми моделями ViGen. Набор данных включает как пары "текст-движение", так и триплеты "текст-видео-движение", существенно расширяя семантическое разнообразие. Во-вторых, мы предлагаем ViMoGen, диффузионный трансформер на основе сопоставления потоков, который унифицирует априорные знания из данных MoCap и моделей ViGen через управляемую мультимодальную кондиционирование. Для повышения эффективности мы дополнительно разрабатываем ViMoGen-light, дистиллированный вариант, который устраняет зависимости от генерации видео, сохраняя при этом высокую способность к обобщению. Наконец, мы представляем MBench, иерархический бенчмарк, предназначенный для детальной оценки по таким параметрам, как качество движений, соответствие промпту и способность к обобщению. Многочисленные эксперименты показывают, что наша структура значительно превосходит существующие подходы как в автоматических, так и в экспертных оценках. Код, данные и бенчмарк будут общедоступны.
English
Despite recent advances in 3D human motion generation (MoGen) on standard
benchmarks, existing models still face a fundamental bottleneck in their
generalization capability. In contrast, adjacent generative fields, most
notably video generation (ViGen), have demonstrated remarkable generalization
in modeling human behaviors, highlighting transferable insights that MoGen can
leverage. Motivated by this observation, we present a comprehensive framework
that systematically transfers knowledge from ViGen to MoGen across three key
pillars: data, modeling, and evaluation. First, we introduce ViMoGen-228K, a
large-scale dataset comprising 228,000 high-quality motion samples that
integrates high-fidelity optical MoCap data with semantically annotated motions
from web videos and synthesized samples generated by state-of-the-art ViGen
models. The dataset includes both text-motion pairs and text-video-motion
triplets, substantially expanding semantic diversity. Second, we propose
ViMoGen, a flow-matching-based diffusion transformer that unifies priors from
MoCap data and ViGen models through gated multimodal conditioning. To enhance
efficiency, we further develop ViMoGen-light, a distilled variant that
eliminates video generation dependencies while preserving strong
generalization. Finally, we present MBench, a hierarchical benchmark designed
for fine-grained evaluation across motion quality, prompt fidelity, and
generalization ability. Extensive experiments show that our framework
significantly outperforms existing approaches in both automatic and human
evaluations. The code, data, and benchmark will be made publicly available.