VideoMDM: Zur 3D-Generierung menschlicher Bewegung aus 2D-Überwachung

Zusammenfassung

Wir stellen VideoMDM vor, ein diffusionsbasiertes Framework, das 3D-Bewegungsprioritäten des Menschen direkt aus präzisen 2D-Posen lernt, die aus monokularen Videos extrahiert wurden – ohne jegliche 3D-Grundwahrheit. Ein vortrainierter 2D-zu-3D-Hebemechanismus liefert approximative 3D-Posensequenzen, die als verrauschter Lehrer dienen: Diese werden diffundiert, vom Modell in 3D entrauscht und in 2D überwacht, indem die Vorhersage rückprojiziert und mit genauen Schlüsselpunkten verglichen wird. Wir zeigen, dass unter milden Annahmen ein tiefengewichteter 2D-Rückprojektionsverlust im Erwartungswert einer direkten 3D-Überwachung entspricht, und passen standardmäßige 3D-Bewegungsregularisierer – Geschwindigkeitskonsistenz und Ausrichtung überparametrisierter Darstellungen – an diese 2D-Umgebung an. Im Gegensatz zu Methoden, die 2D nur bei der Inferenz zu 3D heben, erlernt VideoMDM während des Trainings eine kohärente 3D-Bewegungsmannigfaltigkeit. Auf HumanML3D schließt es fast die Lücke zu vollständig 3D-überwachtem MDM (FID 0,88 vs. 0,54); auf den realen Videodatensätzen Fit3D und NBA lernt die Methode, Bewegungen zu generieren, die von Menschen durchgängig bevorzugt werden, mit starken quantitativen Ergebnissen.

English

We introduce VideoMDM, a diffusion-based framework that trains 3D human motion priors directly from accurate 2D poses extracted from monocular videos, without any 3D ground truth. A pretrained 2D-to-3D lifter provides approximate 3D pose sequences that serve as a noisy teacher: these are diffused, denoised by the model in 3D, and supervised in 2D by reprojecting the prediction and comparing against accurate keypoints. We show that, under mild assumptions, a depth-weighted 2D reprojection loss is equivalent in expectation to direct 3D supervision, and we adapt standard 3D motion regularizers - velocity consistency and over-parameterized representation alignment - to this 2D setting. Unlike methods that lift 2D to 3D only at inference, VideoMDM learns a coherent 3D motion manifold during training. On HumanML3D it nearly closes the gap to fully 3D-supervised MDM (FID 0.88 vs 0.54); On real video datasets Fit3D and NBA the method learns to generate motions consistently preferred by humans, with strong quantitative results.