Control Implícito del Movimiento 3D-Consciente para la Generación de Vídeos Humanos con Adaptación de Vista
3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation
February 3, 2026
Autores: Zhixue Fang, Xu He, Songlin Tang, Haoxian Zhang, Qingfeng Li, Xiaoqiang Liu, Pengfei Wan, Kun Gai
cs.AI
Resumen
Los métodos existentes para el control del movimiento humano en la generación de vídeo suelen basarse en poses 2D o en modelos paramétricos 3D explícitos (por ejemplo, SMPL) como señales de control. Sin embargo, las poses 2D vinculan el movimiento de manera rígida al punto de vista de control, impidiendo la síntesis de nuevas vistas. Los modelos 3D explícitos, aunque estructuralmente informativos, adolecen de imprecisiones inherentes (por ejemplo, ambigüedad de profundidad y dinámicas inexactas) que, al utilizarse como una restricción fuerte, anulan la potente conciencia 3D intrínseca de los generadores de vídeo a gran escala. En este trabajo, revisitamos el control del movimiento desde una perspectiva consciente de la 3D, abogando por una representación de movimiento implícita y agnóstica a la vista que se alinee naturalmente con las predisposiciones espaciales del generador, en lugar de depender de restricciones reconstruidas externamente. Presentamos 3DiMo, que entrena conjuntamente un codificador de movimiento con un generador de vídeo preentrenado para destilar los fotogramas de control en tokens de movimiento compactos y agnósticos a la vista, que se inyectan semánticamente mediante atención cruzada. Para fomentar la conciencia 3D, entrenamos con una supervisión rica en vistas (es decir, vídeos de vista única, multivista y con cámara en movimiento), forzando la coherencia del movimiento a través de diversos puntos de vista. Adicionalmente, utilizamos una supervisión geométrica auxiliar que aprovecha SMPL solo para una inicialización temprana y se reduce gradualmente a cero, permitiendo que el modelo transite de una guía 3D externa al aprendizaje de una comprensión genuina del movimiento espacial 3D a partir de los datos y de las predisposiciones del generador. Los experimentos confirman que 3DiMo reproduce fielmente los movimientos de control con una manipulación de cámara flexible y guiada por texto, superando significativamente a los métodos existentes tanto en fidelidad del movimiento como en calidad visual.
English
Existing methods for human motion control in video generation typically rely on either 2D poses or explicit 3D parametric models (e.g., SMPL) as control signals. However, 2D poses rigidly bind motion to the driving viewpoint, precluding novel-view synthesis. Explicit 3D models, though structurally informative, suffer from inherent inaccuracies (e.g., depth ambiguity and inaccurate dynamics) which, when used as a strong constraint, override the powerful intrinsic 3D awareness of large-scale video generators. In this work, we revisit motion control from a 3D-aware perspective, advocating for an implicit, view-agnostic motion representation that naturally aligns with the generator's spatial priors rather than depending on externally reconstructed constraints. We introduce 3DiMo, which jointly trains a motion encoder with a pretrained video generator to distill driving frames into compact, view-agnostic motion tokens, injected semantically via cross-attention. To foster 3D awareness, we train with view-rich supervision (i.e., single-view, multi-view, and moving-camera videos), forcing motion consistency across diverse viewpoints. Additionally, we use auxiliary geometric supervision that leverages SMPL only for early initialization and is annealed to zero, enabling the model to transition from external 3D guidance to learning genuine 3D spatial motion understanding from the data and the generator's priors. Experiments confirm that 3DiMo faithfully reproduces driving motions with flexible, text-driven camera control, significantly surpassing existing methods in both motion fidelity and visual quality.