Controllo Implicito del Movimento 3D-Consapevole per la Generazione di Video Umani con Adattamento Visivo
3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation
February 3, 2026
Autori: Zhixue Fang, Xu He, Songlin Tang, Haoxian Zhang, Qingfeng Li, Xiaoqiang Liu, Pengfei Wan, Kun Gai
cs.AI
Abstract
I metodi esistenti per il controllo del movimento umano nella generazione video si basano tipicamente su pose 2D o modelli parametrici 3D espliciti (ad esempio, SMPL) come segnali di controllo. Tuttavia, le pose 2D legano rigidamente il movimento al punto di vista di guida, precludendo la sintesi da nuove visuali. I modelli 3D espliciti, sebbene informativi a livello strutturale, soffrono di imprecisioni intrinseche (ad esempio, ambiguità di profondità e dinamiche inaccurate) che, quando usate come vincolo forte, sovrascrivono la potente consapevolezza 3D intrinseca dei generatori video su larga scala. In questo lavoro, rivisitiamo il controllo del movimento da una prospettiva consapevole del 3D, sostenendo una rappresentazione del movimento implicita e indipendente dalla vista che si allinea naturalmente con i priori spaziali del generatore, piuttosto che dipendere da vincoli ricostruiti esternamente. Introduciamo 3DiMo, che addestra congiuntamente un codificatore di movimento con un generatore video pre-addestrato per distillare i frame di guida in token di movimento compatti e indipendenti dalla vista, iniettati semanticamente tramite cross-attention. Per promuovere la consapevolezza 3D, addestriamo con una supervisione ricca di visuali (ovvero, video a vista singola, multi-vista e con camera in movimento), forzando la coerenza del movimento attraverso diversi punti di vista. Inoltre, utilizziamo una supervisione geometrica ausiliaria che sfrutta SMPL solo per una inizializzazione preliminare e viene gradualmente ridotta a zero, permettendo al modello di transitare dalla guida 3D esterna all'apprendimento di una genuina comprensione del movimento spaziale 3D dai dati e dai priori del generatore. Gli esperimenti confermano che 3DiMo riproduce fedelmente i movimenti di guida con un controllo della camera flessibile e guidato dal testo, superando significativamente i metodi esistenti sia nella fedeltà del movimento che nella qualità visiva.
English
Existing methods for human motion control in video generation typically rely on either 2D poses or explicit 3D parametric models (e.g., SMPL) as control signals. However, 2D poses rigidly bind motion to the driving viewpoint, precluding novel-view synthesis. Explicit 3D models, though structurally informative, suffer from inherent inaccuracies (e.g., depth ambiguity and inaccurate dynamics) which, when used as a strong constraint, override the powerful intrinsic 3D awareness of large-scale video generators. In this work, we revisit motion control from a 3D-aware perspective, advocating for an implicit, view-agnostic motion representation that naturally aligns with the generator's spatial priors rather than depending on externally reconstructed constraints. We introduce 3DiMo, which jointly trains a motion encoder with a pretrained video generator to distill driving frames into compact, view-agnostic motion tokens, injected semantically via cross-attention. To foster 3D awareness, we train with view-rich supervision (i.e., single-view, multi-view, and moving-camera videos), forcing motion consistency across diverse viewpoints. Additionally, we use auxiliary geometric supervision that leverages SMPL only for early initialization and is annealed to zero, enabling the model to transition from external 3D guidance to learning genuine 3D spatial motion understanding from the data and the generator's priors. Experiments confirm that 3DiMo faithfully reproduces driving motions with flexible, text-driven camera control, significantly surpassing existing methods in both motion fidelity and visual quality.