Contrôle implicite du mouvement 3D pour la génération de vidéos humaines adaptatives à la vue
3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation
February 3, 2026
papers.authors: Zhixue Fang, Xu He, Songlin Tang, Haoxian Zhang, Qingfeng Li, Xiaoqiang Liu, Pengfei Wan, Kun Gai
cs.AI
papers.abstract
Les méthodes existantes pour le contrôle du mouvement humain dans la génération vidéo reposent généralement sur des poses 2D ou des modèles paramétriques 3D explicites (par exemple, SMPL) comme signaux de contrôle. Cependant, les poses 2D lient rigidement le mouvement au point de vue pilote, empêchant la synthèse de nouvelles vues. Les modèles 3D explicites, bien que structurellement informatifs, souffrent d'inexactitudes inhérentes (par exemple, l'ambiguïté de la profondeur et une dynamique imprécise) qui, lorsqu'elles sont utilisées comme une contrainte forte, supplantent la puissante conscience 3D intrinsèque des générateurs vidéo à grande échelle. Dans ce travail, nous revisitons le contrôle du mouvement sous un angle conscient de la 3D, en préconisant une représentation de mouvement implicite et indépendante de la vue qui s'aligne naturellement avec les préconceptions spatiales du générateur plutôt que de dépendre de contraintes reconstruites extérieurement. Nous présentons 3DiMo, qui entraîne conjointement un encodeur de mouvement avec un générateur vidéo préentraîné pour distiller les images pilotes en tokens de mouvement compacts et indépendants de la vue, injectés sémantiquement via une attention croisée. Pour favoriser la conscience 3D, nous entraînons avec une supervision riche en vues (c'est-à-dire des vidéos à vue unique, multi-vues et à caméra mobile), forçant la cohérence du mouvement à travers divers points de vue. De plus, nous utilisons une supervision géométrique auxiliaire qui exploite SMPL uniquement pour une initialisation précoce et est annulée jusqu'à zéro, permettant au modèle de passer d'un guidage 3D externe à l'apprentissage d'une compréhension authentique du mouvement spatial 3D à partir des données et des préconceptions du générateur. Les expériences confirment que 3DiMo reproduit fidèlement les mouvements pilotes avec un contrôle flexible de la caméra piloté par le texte, surpassant significativement les méthodes existantes tant en fidélité du mouvement qu'en qualité visuelle.
English
Existing methods for human motion control in video generation typically rely on either 2D poses or explicit 3D parametric models (e.g., SMPL) as control signals. However, 2D poses rigidly bind motion to the driving viewpoint, precluding novel-view synthesis. Explicit 3D models, though structurally informative, suffer from inherent inaccuracies (e.g., depth ambiguity and inaccurate dynamics) which, when used as a strong constraint, override the powerful intrinsic 3D awareness of large-scale video generators. In this work, we revisit motion control from a 3D-aware perspective, advocating for an implicit, view-agnostic motion representation that naturally aligns with the generator's spatial priors rather than depending on externally reconstructed constraints. We introduce 3DiMo, which jointly trains a motion encoder with a pretrained video generator to distill driving frames into compact, view-agnostic motion tokens, injected semantically via cross-attention. To foster 3D awareness, we train with view-rich supervision (i.e., single-view, multi-view, and moving-camera videos), forcing motion consistency across diverse viewpoints. Additionally, we use auxiliary geometric supervision that leverages SMPL only for early initialization and is annealed to zero, enabling the model to transition from external 3D guidance to learning genuine 3D spatial motion understanding from the data and the generator's priors. Experiments confirm that 3DiMo faithfully reproduces driving motions with flexible, text-driven camera control, significantly surpassing existing methods in both motion fidelity and visual quality.