OmniDirector: Algemene multi-shot cameraklonen zonder cross-gepaarde data

Samenvatting

Het klonen van camerabewegingen uit referentievideo's is een belangrijke taak in videogeneratie, omdat video's intuïtieve en nauwkeurige controle bieden. Bestaande methoden gebruiken ofwel direct parametrische representaties die niet in staat zijn om multi-shot generatie aan te kunnen, of ze synthetiseren cross-gepaarde data, wat lijdt onder dataschaarste, wat resulteert in slechte prestaties bij het klonen van complexe camerabewegingen. Om deze problemen aan te pakken, introduceren we een algemene camerabewegingsrepresentatie die camera's codeert als grid-bewegingsvideo's. Dit cameraraster visualiseert de cameraparameters visueel en ondersteunt de integratie van diverse trajecten voor multi-shot videogeneratie. Hierop voortbouwend stellen we OmniDirector voor, een uniform raamwerk getraind op miljoenen cameraraster-videoparen dat personages, acties en camera's coördineert om regisseursniveau-controle te bieden voor multimodale diffusietransformatoren. Bovendien ontwerpen we een nieuw hiërarchisch promptuitbreidingsagent dat verschillende controlesignalen harmonieus integreert door systematisch camerabeweging en visuele inhoud te beschrijven via het begrijpen van signaalrelaties. Uitgebreide experimenten tonen de superieure prestaties en uitstekende beheersbaarheid van ons raamwerk aan. Projectpagina: https://ymlinfeng.github.io/OmniDirector.github.io/

English

Cloning camera motion from reference videos is an important task in video generation, as videos provide intuitive and precise control. Existing methods either directly use parametric representations that fail to handle multi-shot generation or synthesize cross-paired data, which suffer from data scarcity, resulting in poor performance in complicated camera motion cloning. To address these issues, we introduce a general camera motion representation that encodes cameras as grid motion videos. This camera grid represents the camera parameters visually and supports the integration of diverse trajectories for multi-shot video generation. Building upon this, we propose OmniDirector, a unified framework trained on a million-scale camera grid-video pairs that coordinates characters, actions, and cameras to provide director-level control for multimodal diffusion transformers. Furthermore, we design a novel hierarchical prompt expansion agent that harmoniously integrates different control signals by systematically describing camera motion and visual content through understanding signal relationships. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework. Project page: https://ymlinfeng.github.io/OmniDirector.github.io/