ChatPaper.aiChatPaper

3D-Bewust Impliciete Bewegingscontrole voor View-Adaptieve Menselijke Videogeneratie

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

February 3, 2026
Auteurs: Zhixue Fang, Xu He, Songlin Tang, Haoxian Zhang, Qingfeng Li, Xiaoqiang Liu, Pengfei Wan, Kun Gai
cs.AI

Samenvatting

Bestaande methoden voor bewegingscontrole bij videogeneratie maken doorgaans gebruik van 2D-poses of expliciete 3D-parametrische modellen (zoals SMPL) als stuursignalen. 2D-poses koppelen de beweging echter rigide aan het sturende perspectief, wat nieuwe-weergavesynthese verhindert. Expliciete 3D-modellen, hoewel structureel informatief, lijden onder inherente onnauwkeurigheden (zoals diepte-ambiguïteit en onnauwkeurige dynamiek) die, wanneer gebruikt als sterke beperking, het krachtige intrinsieke 3D-bewustzijn van grootschalige videogeneratoren overschrijven. In dit werk benaderen we bewegingscontrole opnieuw vanuit een 3D-bewust perspectief, waarbij we pleiten voor een impliciete, view-agnostische bewegingrepresentatie die natuurlijk aansluit bij de ruimtelijke priors van de generator in plaats van af te hangen van extern gereconstrueerde beperkingen. Wij introduceren 3DiMo, dat een beweging-encoder gezamenlijk traint met een voorgetrainde videogenerator om sturende frames te destilleren tot compacte, view-agnostische bewegingstokens, die semantisch worden geïnjecteerd via cross-attention. Om 3D-bewustzijn te bevorderen, trainen we met view-rijke supervisie (d.w.z. enkelvoudig perspectief, meervoudig perspectief en bewegende-cameravideo's), waardoor bewegingconsistentie wordt afgedwongen over diverse gezichtspunten. Daarnaast gebruiken we aanvullende geometrische supervisie die SMPL alleen benut voor vroege initialisatie en wordt afgebouwd naar nul, zodat het model kan overgaan van externe 3D-begeleiding naar het leren van een authentiek begrip van ruimtelijke 3D-beweging vanuit de data en de priors van de generator. Experimenten bevestigen dat 3DiMo sturende bewegingen nauwkeurig reproduceert met flexibele, tekstgestuurde cameracontrole, en bestaande methoden significant overtreft in zowel bewegingstrouw als visuele kwaliteit.
English
Existing methods for human motion control in video generation typically rely on either 2D poses or explicit 3D parametric models (e.g., SMPL) as control signals. However, 2D poses rigidly bind motion to the driving viewpoint, precluding novel-view synthesis. Explicit 3D models, though structurally informative, suffer from inherent inaccuracies (e.g., depth ambiguity and inaccurate dynamics) which, when used as a strong constraint, override the powerful intrinsic 3D awareness of large-scale video generators. In this work, we revisit motion control from a 3D-aware perspective, advocating for an implicit, view-agnostic motion representation that naturally aligns with the generator's spatial priors rather than depending on externally reconstructed constraints. We introduce 3DiMo, which jointly trains a motion encoder with a pretrained video generator to distill driving frames into compact, view-agnostic motion tokens, injected semantically via cross-attention. To foster 3D awareness, we train with view-rich supervision (i.e., single-view, multi-view, and moving-camera videos), forcing motion consistency across diverse viewpoints. Additionally, we use auxiliary geometric supervision that leverages SMPL only for early initialization and is annealed to zero, enabling the model to transition from external 3D guidance to learning genuine 3D spatial motion understanding from the data and the generator's priors. Experiments confirm that 3DiMo faithfully reproduces driving motions with flexible, text-driven camera control, significantly surpassing existing methods in both motion fidelity and visual quality.
PDF498February 8, 2026