OmniDirector: универсальное мультиснимковое клонирование камеры без перекрестно-парных данных

Аннотация

Клонирование движения камеры из эталонных видео является важной задачей в генерации видео, поскольку видео обеспечивают интуитивное и точное управление. Существующие методы либо напрямую используют параметрические представления, которые не справляются с многокадровой генерацией, либо синтезируют кросс-парные данные, страдающие от нехватки данных, что приводит к низкой производительности при клонировании сложных движений камеры. Для решения этих проблем мы вводим общее представление движения камеры, кодирующее камеры как сеточные видео движения. Эта сетка камеры визуально представляет параметры камеры и поддерживает интеграцию разнообразных траекторий для многокадровой генерации видео. Основываясь на этом, мы предлагаем OmniDirector — унифицированную структуру, обученную на миллионах пар «сетка камеры — видео», которая координирует персонажи, действия и камеры для обеспечения управления на уровне режиссера для мультимодальных диффузионных трансформеров. Кроме того, мы разрабатываем новый иерархический агент расширения подсказок, который гармонично интегрирует различные управляющие сигналы путем систематического описания движения камеры и визуального содержимого на основе понимания взаимосвязей сигналов. Обширные эксперименты демонстрируют превосходную производительность и выдающуюся управляемость нашей структуры. Страница проекта: https://ymlinfeng.github.io/OmniDirector.github.io/

English

Cloning camera motion from reference videos is an important task in video generation, as videos provide intuitive and precise control. Existing methods either directly use parametric representations that fail to handle multi-shot generation or synthesize cross-paired data, which suffer from data scarcity, resulting in poor performance in complicated camera motion cloning. To address these issues, we introduce a general camera motion representation that encodes cameras as grid motion videos. This camera grid represents the camera parameters visually and supports the integration of diverse trajectories for multi-shot video generation. Building upon this, we propose OmniDirector, a unified framework trained on a million-scale camera grid-video pairs that coordinates characters, actions, and cameras to provide director-level control for multimodal diffusion transformers. Furthermore, we design a novel hierarchical prompt expansion agent that harmoniously integrates different control signals by systematically describing camera motion and visual content through understanding signal relationships. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework. Project page: https://ymlinfeng.github.io/OmniDirector.github.io/