OmniDirector: Clonación General de Cámaras Multidisparo sin Datos de Pares Cruzados

Resumen

Clonar el movimiento de cámara a partir de vídeos de referencia es una tarea importante en la generación de vídeos, ya que estos proporcionan un control intuitivo y preciso. Los métodos existentes o bien utilizan representaciones paramétricas que no logran manejar la generación de múltiples tomas, o sintetizan datos cruzados, que sufren de escasez de datos, resultando en un rendimiento deficiente en la clonación de movimientos de cámara complejos. Para abordar estos problemas, introducimos una representación general del movimiento de cámara que codifica las cámaras como vídeos de movimiento en cuadrícula. Esta cuadrícula de cámara representa visualmente los parámetros de la cámara y permite la integración de diversas trayectorias para la generación de vídeos en múltiples tomas. Basándonos en esto, proponemos OmniDirector, un marco unificado entrenado con un millón de pares de cuadrícula de cámara y vídeo que coordina personajes, acciones y cámaras para proporcionar un control a nivel de director para transformadores multimodales de difusión. Además, diseñamos un novedoso agente de expansión jerárquica de indicaciones que integra armoniosamente diferentes señales de control mediante la descripción sistemática del movimiento de la cámara y el contenido visual a través de la comprensión de las relaciones entre señales. Experimentos exhaustivos demuestran el rendimiento superior y la notable controlabilidad de nuestro marco. Página del proyecto: https://ymlinfeng.github.io/OmniDirector.github.io/

English

Cloning camera motion from reference videos is an important task in video generation, as videos provide intuitive and precise control. Existing methods either directly use parametric representations that fail to handle multi-shot generation or synthesize cross-paired data, which suffer from data scarcity, resulting in poor performance in complicated camera motion cloning. To address these issues, we introduce a general camera motion representation that encodes cameras as grid motion videos. This camera grid represents the camera parameters visually and supports the integration of diverse trajectories for multi-shot video generation. Building upon this, we propose OmniDirector, a unified framework trained on a million-scale camera grid-video pairs that coordinates characters, actions, and cameras to provide director-level control for multimodal diffusion transformers. Furthermore, we design a novel hierarchical prompt expansion agent that harmoniously integrates different control signals by systematically describing camera motion and visual content through understanding signal relationships. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework. Project page: https://ymlinfeng.github.io/OmniDirector.github.io/