VideoMDM: Rumo à Geração de Movimento Humano 3D a partir de Supervisão 2D

Resumo

Apresentamos o VideoMDM, uma estrutura baseada em difusão que treina priors de movimento humano 3D diretamente a partir de poses 2D precisas extraídas de vídeos monoculares, sem qualquer dado de referência 3D. Um estimador 2D-para-3D pré-treinado fornece sequências aproximadas de poses 3D que servem como um professor ruidoso: estas são difundidas, desruídas pelo modelo em 3D, e supervisionadas em 2D ao reprojetar a previsão e compará-la com pontos-chave precisos. Mostramos que, sob premissas brandas, uma perda de reprojeção 2D ponderada por profundidade é equivalente em expectativa à supervisão 3D direta, e adaptamos regularizadores padrão de movimento 3D — consistência de velocidade e alinhamento de representação superparametrizada — para este cenário 2D. Ao contrário de métodos que elevam 2D para 3D apenas na inferência, o VideoMDM aprende uma variedade de movimento 3D coerente durante o treinamento. No HumanML3D, ele quase elimina a diferença para o MDM totalmente supervisionado em 3D (FID 0,88 vs 0,54). Nos conjuntos de dados de vídeo reais Fit3D e NBA, o método aprende a gerar movimentos consistentemente preferidos por humanos, com resultados quantitativos robustos.

English

We introduce VideoMDM, a diffusion-based framework that trains 3D human motion priors directly from accurate 2D poses extracted from monocular videos, without any 3D ground truth. A pretrained 2D-to-3D lifter provides approximate 3D pose sequences that serve as a noisy teacher: these are diffused, denoised by the model in 3D, and supervised in 2D by reprojecting the prediction and comparing against accurate keypoints. We show that, under mild assumptions, a depth-weighted 2D reprojection loss is equivalent in expectation to direct 3D supervision, and we adapt standard 3D motion regularizers - velocity consistency and over-parameterized representation alignment - to this 2D setting. Unlike methods that lift 2D to 3D only at inference, VideoMDM learns a coherent 3D motion manifold during training. On HumanML3D it nearly closes the gap to fully 3D-supervised MDM (FID 0.88 vs 0.54); On real video datasets Fit3D and NBA the method learns to generate motions consistently preferred by humans, with strong quantitative results.