DreamVideo-Omni: Управляемая всесторонним движением персонализация видео с несколькими объектами с помощью обучения с подкреплением латентной идентичности

Аннотация

Хотя крупномасштабные диффузионные модели произвели революцию в синтезе видео, достижение точного контроля как над идентичностью множества объектов, так и над многоуровневым движением остается серьезной проблемой. Недавние попытки устранить этот разрыв часто страдают от ограниченной гранулярности движения, неоднозначности управления и деградации идентичности, что приводит к неоптимальным результатам в сохранении идентичности и управлении движением. В данной работе мы представляем DreamVideo-Omni — унифицированную структуру, обеспечивающую гармоничную настройку множества объектов с полным контролем движения посредством прогрессивной двухэтапной парадигмы обучения. На первом этапе мы интегрируем комплексные управляющие сигналы для совместного обучения, включая внешний вид объектов, глобальное движение, локальную динамику и перемещения камеры. Для обеспечения надежной и точной управляемости мы вводим зависящее от условий 3D-ротационное позиционное кодирование для координации разнородных входных данных и иерархическую стратегию внедрения движения для усиления глобального управления движением. Кроме того, для устранения неоднозначности множества объектов мы вводим групповые и ролевые эмбеддинги, чтобы явно привязать сигналы движения к конкретным идентичностям, эффективно разделяя сложные сцены на независимые управляемые экземпляры. На втором этапе, чтобы смягчить деградацию идентичности, мы разрабатываем парадигму обучения с обратной связью на основе латентного вознаграждения за идентичность, обучая модель латентного вознаграждения на основе предварительно обученного каркаса диффузии видео. Это обеспечивает учитывающие движение вознаграждения за идентичность в латентном пространстве, отдавая приоритет сохранению идентичности в соответствии с человеческими предпочтениями. Благодаря созданному нами крупномасштабному набору данных и комплексному DreamOmni Bench для оценки управления множеством объектов и полным движением, DreamVideo-Omni демонстрирует превосходную производительность в генерации высококачественных видео с точной управляемостью.

English

While large-scale diffusion models have revolutionized video synthesis, achieving precise control over both multi-subject identity and multi-granularity motion remains a significant challenge. Recent attempts to bridge this gap often suffer from limited motion granularity, control ambiguity, and identity degradation, leading to suboptimal performance on identity preservation and motion control. In this work, we present DreamVideo-Omni, a unified framework enabling harmonious multi-subject customization with omni-motion control via a progressive two-stage training paradigm. In the first stage, we integrate comprehensive control signals for joint training, encompassing subject appearances, global motion, local dynamics, and camera movements. To ensure robust and precise controllability, we introduce a condition-aware 3D rotary positional embedding to coordinate heterogeneous inputs and a hierarchical motion injection strategy to enhance global motion guidance. Furthermore, to resolve multi-subject ambiguity, we introduce group and role embeddings to explicitly anchor motion signals to specific identities, effectively disentangling complex scenes into independent controllable instances. In the second stage, to mitigate identity degradation, we design a latent identity reward feedback learning paradigm by training a latent identity reward model upon a pretrained video diffusion backbone. This provides motion-aware identity rewards in the latent space, prioritizing identity preservation aligned with human preferences. Supported by our curated large-scale dataset and the comprehensive DreamOmni Bench for multi-subject and omni-motion control evaluation, DreamVideo-Omni demonstrates superior performance in generating high-quality videos with precise controllability.