VideoMDM : vers la génération de mouvement humain 3D à partir de supervision 2D

Résumé

Nous présentons VideoMDM, un cadre basé sur la diffusion qui apprend des a priori de mouvement humain 3D directement à partir de poses 2D précises extraites de vidéos monoculaires, sans aucune vérité terrain 3D. Un élévateur 2D-3D pré-entraîné fournit des séquences de poses 3D approximatives servant d’enseignant bruité : celles-ci sont diffusées, débruitées par le modèle en 3D, et supervisées en 2D en reprojetant la prédiction et en la comparant aux points clés précis. Nous montrons que, sous des hypothèses légères, une perte de reprojection 2D pondérée par la profondeur est équivalente en espérance à une supervision 3D directe, et nous adaptons les régularisateurs de mouvement 3D standard — cohérence de vélocité et alignement de représentation sur-paramétrée — à ce cadre 2D. Contrairement aux méthodes qui ne remontent la 2D en 3D qu’à l’inférence, VideoMDM apprend une variété de mouvement 3D cohérente pendant l’entraînement. Sur HumanML3D, il réduit presque l’écart avec le MDM entièrement supervisé en 3D (FID 0,88 contre 0,54) ; sur les ensembles de vidéos réelles Fit3D et NBA, la méthode apprend à générer des mouvements constamment préférés par les humains, avec des résultats quantitatifs solides.

English

We introduce VideoMDM, a diffusion-based framework that trains 3D human motion priors directly from accurate 2D poses extracted from monocular videos, without any 3D ground truth. A pretrained 2D-to-3D lifter provides approximate 3D pose sequences that serve as a noisy teacher: these are diffused, denoised by the model in 3D, and supervised in 2D by reprojecting the prediction and comparing against accurate keypoints. We show that, under mild assumptions, a depth-weighted 2D reprojection loss is equivalent in expectation to direct 3D supervision, and we adapt standard 3D motion regularizers - velocity consistency and over-parameterized representation alignment - to this 2D setting. Unlike methods that lift 2D to 3D only at inference, VideoMDM learns a coherent 3D motion manifold during training. On HumanML3D it nearly closes the gap to fully 3D-supervised MDM (FID 0.88 vs 0.54); On real video datasets Fit3D and NBA the method learns to generate motions consistently preferred by humans, with strong quantitative results.