OmniDirector: Allgemeines Multi-Shot-Kameraklonen ohne kreuzgepaarte Daten

Zusammenfassung

Das Nachbilden von Kamerabewegungen aus Referenzvideos ist eine wichtige Aufgabe in der Videogenerierung, da Videos eine intuitive und präzise Steuerung ermöglichen. Bisherige Methoden verwenden entweder direkt parametrische Darstellungen, die bei der Generierung mehrerer Aufnahmen versagen, oder synthetisieren kreuzgepaarte Daten, die unter Datenknappheit leiden, was zu schlechter Leistung beim Klonen komplexer Kamerabewegungen führt. Um diese Probleme zu adressieren, führen wir eine allgemeine Kamerabewegungsdarstellung ein, die Kameras als Gitterbewegungsvideos codiert. Dieses Kameraraster stellt die Kameraparameter visuell dar und unterstützt die Integration unterschiedlicher Trajektorien für die Mehrfachaufnahme-Videogenerierung. Darauf aufbauend schlagen wir OmniDirector vor, ein einheitliches Framework, das auf Millionen von Kameraraster-Videopaaren trainiert ist und Charaktere, Aktionen und Kameras koordiniert, um eine Kontrolle auf Regieebene für multimodale Diffusionstransformatoren zu bieten. Darüber hinaus entwerfen wir einen neuartigen hierarchischen Prompt-Erweiterungsagenten, der verschiedene Steuersignale harmonisch integriert, indem er Kamerabewegung und visuellen Inhalt durch das Verständnis von Signalbeziehungen systematisch beschreibt. Umfangreiche Experimente belegen die überlegene Leistung und herausragende Kontrollierbarkeit unseres Frameworks. Projektseite: https://ymlinfeng.github.io/OmniDirector.github.io/

English

Cloning camera motion from reference videos is an important task in video generation, as videos provide intuitive and precise control. Existing methods either directly use parametric representations that fail to handle multi-shot generation or synthesize cross-paired data, which suffer from data scarcity, resulting in poor performance in complicated camera motion cloning. To address these issues, we introduce a general camera motion representation that encodes cameras as grid motion videos. This camera grid represents the camera parameters visually and supports the integration of diverse trajectories for multi-shot video generation. Building upon this, we propose OmniDirector, a unified framework trained on a million-scale camera grid-video pairs that coordinates characters, actions, and cameras to provide director-level control for multimodal diffusion transformers. Furthermore, we design a novel hierarchical prompt expansion agent that harmoniously integrates different control signals by systematically describing camera motion and visual content through understanding signal relationships. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework. Project page: https://ymlinfeng.github.io/OmniDirector.github.io/