VideoMDM: Hacia la generación de movimiento humano 3D a partir de supervisión 2D

Resumen

Presentamos VideoMDM, un marco basado en difusión que entrena prioridades de movimiento humano 3D directamente a partir de poses 2D precisas extraídas de videos monoculares, sin necesidad de datos de referencia 3D. Un elevador 2D a 3D preentrenado proporciona secuencias de pose 3D aproximadas que sirven como un maestro ruidoso: estas se difunden, son denoizadas por el modelo en 3D y supervisadas en 2D mediante la reproyección de la predicción y su comparación con puntos clave precisos. Demostramos que, bajo supuestos moderados, una pérdida de reproyección 2D ponderada por profundidad es equivalente en expectativa a una supervisión 3D directa, y adaptamos regularizadores de movimiento 3D estándar (consistencia de velocidad y alineación de representación sobreparametrizada) a este entorno 2D. A diferencia de métodos que solo elevan 2D a 3D durante la inferencia, VideoMDM aprende una variedad de movimiento 3D coherente durante el entrenamiento. En HumanML3D, casi cierra la brecha con MDM supervisado completamente en 3D (FID 0.88 frente a 0.54); en conjuntos de datos de video reales Fit3D y NBA, el método aprende a generar movimientos consistentemente preferidos por humanos, con resultados cuantitativos sólidos.

English

We introduce VideoMDM, a diffusion-based framework that trains 3D human motion priors directly from accurate 2D poses extracted from monocular videos, without any 3D ground truth. A pretrained 2D-to-3D lifter provides approximate 3D pose sequences that serve as a noisy teacher: these are diffused, denoised by the model in 3D, and supervised in 2D by reprojecting the prediction and comparing against accurate keypoints. We show that, under mild assumptions, a depth-weighted 2D reprojection loss is equivalent in expectation to direct 3D supervision, and we adapt standard 3D motion regularizers - velocity consistency and over-parameterized representation alignment - to this 2D setting. Unlike methods that lift 2D to 3D only at inference, VideoMDM learns a coherent 3D motion manifold during training. On HumanML3D it nearly closes the gap to fully 3D-supervised MDM (FID 0.88 vs 0.54); On real video datasets Fit3D and NBA the method learns to generate motions consistently preferred by humans, with strong quantitative results.