Controle Implícito de Movimento 3D-Consciente para Geração de Vídeos Humanos com Adaptação de Vista

Resumo

Os métodos existentes para controle de movimento humano em geração de vídeo normalmente dependem de poses 2D ou modelos paramétricos 3D explícitos (por exemplo, SMPL) como sinais de controle. No entanto, as poses 2D vinculam rigidamente o movimento ao ponto de vista de controle, impedindo a síntese de novas perspectivas. Os modelos 3D explícitos, embora estruturalmente informativos, sofrem com imprecisões inerentes (por exemplo, ambiguidade de profundidade e dinâmicas imprecisas) que, quando usadas como uma restrição forte, sobrepõem a poderosa percepção 3D intrínseca dos geradores de vídeo em larga escala. Neste trabalho, revisitamos o controle de movimento a partir de uma perspectiva 3D, defendendo uma representação de movimento implícita e independente de vista que se alinha naturalmente com os priores espaciais do gerador, em vez de depender de restrições reconstruídas externamente. Apresentamos o 3DiMo, que treina conjuntamente um codificador de movimento com um gerador de vídeo pré-treinado para destilar quadros de controle em tokens de movimento compactos e independentes de vista, injetados semanticamente via atenção cruzada. Para promover a percepção 3D, treinamos com supervisão rica em vistas (ou seja, vídeos de vista única, multivista e com câmera em movimento), forçando a consistência do movimento em diversas perspectivas. Adicionalmente, usamos supervisão geométrica auxiliar que aproveita o SMPL apenas para inicialização precoce e é gradualmente reduzida a zero, permitindo que o modelo transite da orientação 3D externa para aprender uma genuína compreensão do movimento espacial 3D a partir dos dados e dos priores do gerador. Experimentos confirmam que o 3DiMo reproduz fielmente os movimentos de controle com flexível controle de câmera orientado por texto, superando significativamente os métodos existentes tanto em fidelidade de movimento quanto em qualidade visual.

English

Existing methods for human motion control in video generation typically rely on either 2D poses or explicit 3D parametric models (e.g., SMPL) as control signals. However, 2D poses rigidly bind motion to the driving viewpoint, precluding novel-view synthesis. Explicit 3D models, though structurally informative, suffer from inherent inaccuracies (e.g., depth ambiguity and inaccurate dynamics) which, when used as a strong constraint, override the powerful intrinsic 3D awareness of large-scale video generators. In this work, we revisit motion control from a 3D-aware perspective, advocating for an implicit, view-agnostic motion representation that naturally aligns with the generator's spatial priors rather than depending on externally reconstructed constraints. We introduce 3DiMo, which jointly trains a motion encoder with a pretrained video generator to distill driving frames into compact, view-agnostic motion tokens, injected semantically via cross-attention. To foster 3D awareness, we train with view-rich supervision (i.e., single-view, multi-view, and moving-camera videos), forcing motion consistency across diverse viewpoints. Additionally, we use auxiliary geometric supervision that leverages SMPL only for early initialization and is annealed to zero, enabling the model to transition from external 3D guidance to learning genuine 3D spatial motion understanding from the data and the generator's priors. Experiments confirm that 3DiMo faithfully reproduces driving motions with flexible, text-driven camera control, significantly surpassing existing methods in both motion fidelity and visual quality.

Controle Implícito de Movimento 3D-Consciente para Geração de Vídeos Humanos com Adaptação de Vista

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Resumo

Support