ChatPaper.aiChatPaper

OmniDirector: 교차 쌍 데이터 없이 수행하는 일반적인 멀티샷 카메라 클로닝

OmniDirector: General Multi-Shot Camera Cloning without Cross-Paired Data

June 11, 2026
저자: Jiwen Liu, Shujuan Li, Zhixue Fang, Xiaohan Li, Yan Zhou, Zijie Meng, Zhimin Zhang, Yawen Luo, Guoxin Zhang, Yu-Shen Liu, Pengfei Wan
cs.AI

초록

참조 비디오로부터 카메라 모션을 복제하는 것은 비디오 생성에서 중요한 작업으로, 비디오가 직관적이고 정밀한 제어를 제공하기 때문이다. 기존 방법들은 다중 샷 생성을 처리하지 못하는 매개변수 표현을 직접 사용하거나, 데이터 부족 문제를 겪는 교차 쌍 데이터를 합성하여 복잡한 카메라 모션 복제에서 성능이 저하된다. 이러한 문제를 해결하기 위해, 우리는 카메라를 그리드 모션 비디오로 인코딩하는 일반적인 카메라 모션 표현을 도입한다. 이 카메라 그리드는 카메라 매개변수를 시각적으로 나타내며, 다중 샷 비디오 생성을 위해 다양한 궤적의 통합을 지원한다. 이를 기반으로, 우리는 백만 규모의 카메라 그리드-비디오 쌍으로 훈련된 통합 프레임워크인 OmniDirector를 제안한다. 이는 캐릭터, 동작 및 카메라를 조정하여 다중 모달 확산 트랜스포머에 감독 수준의 제어를 제공한다. 또한, 우리는 신호 관계를 이해하여 카메라 모션과 시각적 콘텐츠를 체계적으로 설명함으로써 다양한 제어 신호를 조화롭게 통합하는 새로운 계층적 프롬프트 확장 에이전트를 설계한다. 광범위한 실험을 통해 우리 프레임워크의 우수한 성능과 뛰어난 제어 가능성을 입증한다. 프로젝트 페이지: https://ymlinfeng.github.io/OmniDirector.github.io/
English
Cloning camera motion from reference videos is an important task in video generation, as videos provide intuitive and precise control. Existing methods either directly use parametric representations that fail to handle multi-shot generation or synthesize cross-paired data, which suffer from data scarcity, resulting in poor performance in complicated camera motion cloning. To address these issues, we introduce a general camera motion representation that encodes cameras as grid motion videos. This camera grid represents the camera parameters visually and supports the integration of diverse trajectories for multi-shot video generation. Building upon this, we propose OmniDirector, a unified framework trained on a million-scale camera grid-video pairs that coordinates characters, actions, and cameras to provide director-level control for multimodal diffusion transformers. Furthermore, we design a novel hierarchical prompt expansion agent that harmoniously integrates different control signals by systematically describing camera motion and visual content through understanding signal relationships. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework. Project page: https://ymlinfeng.github.io/OmniDirector.github.io/