VideoMDM: Naar de generatie van 3D-menselijke beweging vanuit 2D-supervisie

Samenvatting

Wij introduceren VideoMDM, een diffusiegebaseerd raamwerk dat 3D-menselijke bewegingspriors direct traint op basis van nauwkeurige 2D-poses, geëxtraheerd uit monovisie video's, zonder enige 3D-grondwaarheid. Een voorgetrainde 2D-naar-3D lifter levert benaderende 3D-posereeksen die dienen als een ruizige leraar: deze worden gediffundeerd, door het model in 3D ontruist, en in 2D gesuperviseerd door de voorspelling te herprojecteren en te vergelijken met nauwkeurige keypoints. Wij tonen aan dat, onder milde aannames, een dieptegewogen 2D-herprojectieverlies in verwachting equivalent is aan directe 3D-supervisie, en wij passen standaard 3D-bewegingsregularizers - snelheidsconsistentie en overgeparametriseerde representatie-uitlijning - aan deze 2D-setting aan. In tegenstelling tot methoden die 2D slechts bij inferentie naar 3D liften, leert VideoMDM een coherente 3D-bewegingsmanifold tijdens de training. Op HumanML3D overbrugt het bijna de kloof naar volledig 3D-gesuperviseerd MDM (FID 0,88 versus 0,54); op echte videodatasets Fit3D en NBA leert de methode bewegingen te genereren die consistent door mensen worden verkozen, met sterke kwantitatieve resultaten.

English

We introduce VideoMDM, a diffusion-based framework that trains 3D human motion priors directly from accurate 2D poses extracted from monocular videos, without any 3D ground truth. A pretrained 2D-to-3D lifter provides approximate 3D pose sequences that serve as a noisy teacher: these are diffused, denoised by the model in 3D, and supervised in 2D by reprojecting the prediction and comparing against accurate keypoints. We show that, under mild assumptions, a depth-weighted 2D reprojection loss is equivalent in expectation to direct 3D supervision, and we adapt standard 3D motion regularizers - velocity consistency and over-parameterized representation alignment - to this 2D setting. Unlike methods that lift 2D to 3D only at inference, VideoMDM learns a coherent 3D motion manifold during training. On HumanML3D it nearly closes the gap to fully 3D-supervised MDM (FID 0.88 vs 0.54); On real video datasets Fit3D and NBA the method learns to generate motions consistently preferred by humans, with strong quantitative results.