트리-프롬프팅: 장면, 대상, 동작에 대한 통합 제어를 통한 비디오 확산
Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion
March 16, 2026
저자: Zhenghong Zhou, Xiaohang Zhan, Zhiqin Chen, Soo Ye Kim, Nanxuan Zhao, Haitian Zheng, Qing Liu, He Zhang, Zhe Lin, Yuqian Zhou, Jiebo Luo
cs.AI
초록
최근 비디오 확산 모델은 시각적 품질에서 놀라운 발전을 이루었으나, 정밀하고 세밀한 제어는 콘텐츠 제작을 위한 실질적인 사용자 지정 가능성을 제한하는 주요 병목 현상으로 남아 있습니다. AI 비디오 제작자에게는 세 가지 형태의 제어가 중요합니다: (i) 장면 구성, (ii) 다중 뷰 일관성 있는 주체 사용자 지정, (iii) 카메라 포즈 또는 객체 모션 조정. 기존 방법들은 일반적으로 이러한 차원을 별도로 처리하며, 임의의 포즈 변화에서 다중 뷰 주체 합성 및 정체성 보존에 대한 지원이 제한적입니다. 이러한 통합 아키텍처의 부재는 다용도적이고 공동 제어 가능한 비디오를 지원하기 어렵게 만듭니다. 우리는 장면 구성, 다중 뷰 주체 일관성, 모션 제어를 통합하는 통합 프레임워크이자 2단계 학습 패러다임인 Tri-Prompting을 소개합니다. 우리의 접근 방식은 배경 장면에는 3D 추적 점으로, 전경 주체에는 다운샘플링된 RGB 단서로 구동되는 이중 조건 모션 모듈을 활용합니다. 제어 가능성과 시각적 현실감 사이의 균형을 보장하기 위해, 우리는 추론 시 ControlNet 스케일 스케줄을 추가로 제안합니다. Tri-Prompting은 어떤 장면에도 3D 인식 주체 삽입 및 이미지 내 기존 주체 조작을 포함한 새로운 워크플로우를 지원합니다. 실험 결과는 Tri-Prompting이 Phantom 및 DaS와 같은 특화된 베이스라인을 다중 뷰 주체 정체성, 3D 일관성 및 모션 정확도에서 크게 능가함을 보여줍니다.
English
Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.