視点適応型人間ビデオ生成のための3D認識暗黙的モーション制御
3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation
February 3, 2026
著者: Zhixue Fang, Xu He, Songlin Tang, Haoxian Zhang, Qingfeng Li, Xiaoqiang Liu, Pengfei Wan, Kun Gai
cs.AI
要旨
ビデオ生成における既存の人体動作制御手法は、一般的に2Dポーズまたは明示的な3Dパラメトリックモデル(例:SMPL)を制御信号として利用している。しかし、2Dポーズは動作を駆動視点に厳密に拘束するため、新規視点合成が不可能となる。明示的3Dモデルは構造的な情報を提供するものの、深度曖昧性や不正確な動力学といった本質的な不正確さを抱えており、強力な制約として使用されると大規模ビデオ生成器が本来備える強力な3D認識能力を上書きしてしまう。本研究では、3D認識の観点から動作制御を再考し、外部再構築された制約に依存するのではなく、生成器の空間的事前知識と自然に整合する暗黙的で視点非依存の動作表現を提唱する。我々は3DiMoを提案し、事前学習済みビデオ生成器と動作エンコーダを共同学習することで、駆動フレームをコンパクトな視点非依存のモーショントークンに蒸留し、クロスアテンションを介して意味的に注入する。3D認識を促進するため、視点豊富な監督(単一視点、多視点、移動カメラのビデオ)で学習し、多様な視点間での動作一貫性を強制する。さらに、SMPLを初期化段階でのみ利用しゼロに減衰させる補助幾何学監督を用いることで、モデルが外部3Dガイダンスから、データと生成器の事前知識から真の3D空間動作理解を学習する段階へ移行できるようにする。実験により、3DiMoが駆動動作を忠実に再現しつつ柔軟なテキスト駆動カメラ制御を実現し、動作忠実度と視覚的品質の両方で既存手法を大幅に上回ることを確認した。
English
Existing methods for human motion control in video generation typically rely on either 2D poses or explicit 3D parametric models (e.g., SMPL) as control signals. However, 2D poses rigidly bind motion to the driving viewpoint, precluding novel-view synthesis. Explicit 3D models, though structurally informative, suffer from inherent inaccuracies (e.g., depth ambiguity and inaccurate dynamics) which, when used as a strong constraint, override the powerful intrinsic 3D awareness of large-scale video generators. In this work, we revisit motion control from a 3D-aware perspective, advocating for an implicit, view-agnostic motion representation that naturally aligns with the generator's spatial priors rather than depending on externally reconstructed constraints. We introduce 3DiMo, which jointly trains a motion encoder with a pretrained video generator to distill driving frames into compact, view-agnostic motion tokens, injected semantically via cross-attention. To foster 3D awareness, we train with view-rich supervision (i.e., single-view, multi-view, and moving-camera videos), forcing motion consistency across diverse viewpoints. Additionally, we use auxiliary geometric supervision that leverages SMPL only for early initialization and is annealed to zero, enabling the model to transition from external 3D guidance to learning genuine 3D spatial motion understanding from the data and the generator's priors. Experiments confirm that 3DiMo faithfully reproduces driving motions with flexible, text-driven camera control, significantly surpassing existing methods in both motion fidelity and visual quality.