VideoMDM: к генерации 3D-движений человека из 2D-супервизии

Аннотация

Мы представляем VideoMDM — основанную на диффузии структуру, которая обучает априорные модели трехмерных движений человека непосредственно по точным двумерным позам, извлеченным из монокулярных видео, без использования какой-либо трехмерной истины. Предварительно обученный преобразователь 2D в 3D предоставляет приблизительные последовательности трехмерных поз, которые служат зашумленным учителем: эти последовательности подвергаются диффузии, затем модель очищает их в трехмерном пространстве, а контроль осуществляется в двумерном пространстве путем обратного проецирования предсказания и сравнения с точными ключевыми точками. Мы показываем, что при мягких допущениях функция потерь при обратном проецировании с весами по глубине эквивалентна по математическому ожиданию прямому трехмерному контролю, и адаптируем стандартные регуляризаторы трехмерных движений — согласованность скоростей и выравнивание избыточных представлений — к этому двумерному сценарию. В отличие от методов, которые переводят 2D в 3D только на этапе вывода, VideoMDM изучает согласованное многообразие трехмерных движений в процессе обучения. На наборе данных HumanML3D модель почти устраняет разрыв с MDM, обученным с полным трехмерным контролем (FID 0.88 против 0.54); на реальных видеонаборах Fit3D и NBA метод обучается генерировать движения, которые последовательно предпочитаются людьми, демонстрируя высокие количественные результаты.

English

We introduce VideoMDM, a diffusion-based framework that trains 3D human motion priors directly from accurate 2D poses extracted from monocular videos, without any 3D ground truth. A pretrained 2D-to-3D lifter provides approximate 3D pose sequences that serve as a noisy teacher: these are diffused, denoised by the model in 3D, and supervised in 2D by reprojecting the prediction and comparing against accurate keypoints. We show that, under mild assumptions, a depth-weighted 2D reprojection loss is equivalent in expectation to direct 3D supervision, and we adapt standard 3D motion regularizers - velocity consistency and over-parameterized representation alignment - to this 2D setting. Unlike methods that lift 2D to 3D only at inference, VideoMDM learns a coherent 3D motion manifold during training. On HumanML3D it nearly closes the gap to fully 3D-supervised MDM (FID 0.88 vs 0.54); On real video datasets Fit3D and NBA the method learns to generate motions consistently preferred by humans, with strong quantitative results.