3D-bewusste implizite Bewegungssteuerung für sichtadaptive menschliche Videogenerierung
3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation
February 3, 2026
papers.authors: Zhixue Fang, Xu He, Songlin Tang, Haoxian Zhang, Qingfeng Li, Xiaoqiang Liu, Pengfei Wan, Kun Gai
cs.AI
papers.abstract
Bestehende Methoden zur Steuerung menschlicher Bewegungen in der Videogenerierung basieren typischerweise entweder auf 2D-Posen oder expliziten 3D-parametrischen Modellen (z.B. SMPL) als Steuersignale. Allerdings binden 2D-Posen die Bewegung starr an die antreibende Kameraperspektive, was die Synthese neuartiger Ansichten verhindert. Explizite 3D-Modelle sind zwar strukturell informativ, leiden jedoch unter inhärenten Ungenauigkeiten (z.B. Tiefenmehrdeutigkeit und ungenaue Dynamik), die – wenn sie als starke Randbedingung verwendet werden – das mächtige intrinsische 3D-Verständnis großskaliger Videogeneratoren überlagern. In dieser Arbeit betrachten wir Bewegungssteuerung aus einer 3D-bewussten Perspektive neu und plädieren für eine implizite, perspektivenunabhängige Bewegungsrepräsentation, die sich natürlich mit den räumlichen Priors des Generators abstimmt, anstatt von extern rekonstruierten Randbedingungen abzuhängen. Wir stellen 3DiMo vor, das gemeinsam einen Bewegungskodierer mit einem vortrainierten Videogenerator trainiert, um Antriebsbilder in kompakte, perspektivenunabhängige Bewegungstoken zu destillieren, die semantisch via Cross-Attention eingefügt werden. Um das 3D-Verständnis zu fördern, trainieren wir mit perspektivenreicher Supervision (d.h. Einzelansichts-, Mehransichts- und Bewegtkameravideos), wodurch Bewegungs konsistenz über verschiedene Blickwinkel erzwungen wird. Zusätzlich verwenden wir eine auxiliary geometrische Supervision, die SMPL nur zur frühen Initialisierung nutzt und dann auf Null abklingt. Dies ermöglicht dem Modell, von externer 3D-Führung zu einem echten, aus den Daten und den Priors des Generators erlernten räumlichen 3D-Bewegungsverständnis überzugehen. Experimente bestätigen, dass 3DiMo antreibende Bewegungen mit flexibler, textgesteuerter Kamerakontrolle getreu reproduziert und bestehende Methoden sowohl in der Bewegungsqualität als auch der visuellen Qualität signifikant übertrifft.
English
Existing methods for human motion control in video generation typically rely on either 2D poses or explicit 3D parametric models (e.g., SMPL) as control signals. However, 2D poses rigidly bind motion to the driving viewpoint, precluding novel-view synthesis. Explicit 3D models, though structurally informative, suffer from inherent inaccuracies (e.g., depth ambiguity and inaccurate dynamics) which, when used as a strong constraint, override the powerful intrinsic 3D awareness of large-scale video generators. In this work, we revisit motion control from a 3D-aware perspective, advocating for an implicit, view-agnostic motion representation that naturally aligns with the generator's spatial priors rather than depending on externally reconstructed constraints. We introduce 3DiMo, which jointly trains a motion encoder with a pretrained video generator to distill driving frames into compact, view-agnostic motion tokens, injected semantically via cross-attention. To foster 3D awareness, we train with view-rich supervision (i.e., single-view, multi-view, and moving-camera videos), forcing motion consistency across diverse viewpoints. Additionally, we use auxiliary geometric supervision that leverages SMPL only for early initialization and is annealed to zero, enabling the model to transition from external 3D guidance to learning genuine 3D spatial motion understanding from the data and the generator's priors. Experiments confirm that 3DiMo faithfully reproduces driving motions with flexible, text-driven camera control, significantly surpassing existing methods in both motion fidelity and visual quality.