시점 적응적 인간 비디오 생성을 위한 3D 인식 암묵적 모션 제어
3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation
February 3, 2026
저자: Zhixue Fang, Xu He, Songlin Tang, Haoxian Zhang, Qingfeng Li, Xiaoqiang Liu, Pengfei Wan, Kun Gai
cs.AI
초록
기존의 비디오 생성에서 인간 동작 제어 방법은 일반적으로 2D 포즈나 명시적 3D 파라미터 모델(예: SMPL)을 제어 신호로 활용합니다. 그러나 2D 포즈는 동작을 구동 뷰포인트에 강하게 묶어 새로운 시점 합성을 방해합니다. 명시적 3D 모델은 구조적 정보를 제공하지만 깊이 모호성 및 부정확한 역학 같은 본질적 한계를 지니며, 이를 강한 제약으로 사용할 경우 대규모 비디오 생성기의 강력한 내재적 3D 인식을 오히려 억압합니다. 본 연구에서는 3D 인식 관점에서 동작 제어를 재조명하며, 외부 재구축 제약에 의존하기보다 생성기의 공간 사전 지식과 자연스럽게 조화되는 암묵적, 뷰-불변 동작 표현을 지향합니다. 우리는 사전 학습된 비디오 생성기와 운동 인코더를 공동 학습하여 구동 프레임을 간결한 뷰-불변 운동 토큰으로 추출하고 cross-attention을 통해 의미론적으로 주입하는 3DiMo를 제안합니다. 3D 인식을 촉진하기 위해 단일 뷰, 다중 뷰, 이동 카메라 비디오 같은 풍부한 시점 감독 데이터로 학습하여 다양한 시점에서 동작 일관성을 강제합니다. 추가로 SMPL을 초기 초기화에만 활용하고 점차 제거하는 보조 기하학적 감독을 사용하여, 모델이 외부 3D 지도에서 데이터와 생성기의 사전 지식을 통한 진정한 3D 공간 운동 이해를 학습하도록 전환합니다. 실험 결과, 3DiMo는 유연한 텍스트 기반 카메라 제어로 구동 동작을 충실히 재현하며, 기존 방법들을 동작 정확도와 시각적 품질 모두에서 크게 능가함을 확인했습니다.
English
Existing methods for human motion control in video generation typically rely on either 2D poses or explicit 3D parametric models (e.g., SMPL) as control signals. However, 2D poses rigidly bind motion to the driving viewpoint, precluding novel-view synthesis. Explicit 3D models, though structurally informative, suffer from inherent inaccuracies (e.g., depth ambiguity and inaccurate dynamics) which, when used as a strong constraint, override the powerful intrinsic 3D awareness of large-scale video generators. In this work, we revisit motion control from a 3D-aware perspective, advocating for an implicit, view-agnostic motion representation that naturally aligns with the generator's spatial priors rather than depending on externally reconstructed constraints. We introduce 3DiMo, which jointly trains a motion encoder with a pretrained video generator to distill driving frames into compact, view-agnostic motion tokens, injected semantically via cross-attention. To foster 3D awareness, we train with view-rich supervision (i.e., single-view, multi-view, and moving-camera videos), forcing motion consistency across diverse viewpoints. Additionally, we use auxiliary geometric supervision that leverages SMPL only for early initialization and is annealed to zero, enabling the model to transition from external 3D guidance to learning genuine 3D spatial motion understanding from the data and the generator's priors. Experiments confirm that 3DiMo faithfully reproduces driving motions with flexible, text-driven camera control, significantly surpassing existing methods in both motion fidelity and visual quality.