OmniDirector: Clonagem Geral de Câmera Multi-Disparo sem Dados Pareados Cruzados

Resumo

Clonar o movimento de câmera a partir de vídeos de referência é uma tarefa importante na geração de vídeos, pois os vídeos fornecem controle intuitivo e preciso. Métodos existentes ou utilizam diretamente representações paramétricas que não conseguem lidar com a geração de múltiplas tomadas, ou sintetizam dados emparelhados cruzados, que sofrem com escassez de dados, resultando em baixo desempenho na clonagem de movimentos de câmera complexos. Para resolver esses problemas, introduzimos uma representação geral de movimento de câmera que codifica câmeras como vídeos de grade de movimento. Essa grade de câmera representa visualmente os parâmetros da câmera e suporta a integração de trajetórias diversas para geração de vídeos de múltiplas tomadas. Com base nisso, propomos o OmniDirector, uma estrutura unificada treinada em um milhão de pares de grade de câmera e vídeo que coordena personagens, ações e câmeras para fornecer controle em nível de diretor para transformadores difusão multimodais. Além disso, projetamos um novo agente hierárquico de expansão de prompts que integra harmoniosamente diferentes sinais de controle ao descrever sistematicamente o movimento da câmera e o conteúdo visual por meio da compreensão das relações entre os sinais. Experimentos extensos demonstram o desempenho superior e a notável controlabilidade da nossa estrutura. Página do projeto: https://ymlinfeng.github.io/OmniDirector.github.io/

English

Cloning camera motion from reference videos is an important task in video generation, as videos provide intuitive and precise control. Existing methods either directly use parametric representations that fail to handle multi-shot generation or synthesize cross-paired data, which suffer from data scarcity, resulting in poor performance in complicated camera motion cloning. To address these issues, we introduce a general camera motion representation that encodes cameras as grid motion videos. This camera grid represents the camera parameters visually and supports the integration of diverse trajectories for multi-shot video generation. Building upon this, we propose OmniDirector, a unified framework trained on a million-scale camera grid-video pairs that coordinates characters, actions, and cameras to provide director-level control for multimodal diffusion transformers. Furthermore, we design a novel hierarchical prompt expansion agent that harmoniously integrates different control signals by systematically describing camera motion and visual content through understanding signal relationships. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework. Project page: https://ymlinfeng.github.io/OmniDirector.github.io/