DreamVideo-Omni: Omni-Bewegungsgesteuerte Multisubjekt-Videoanpassung mit Latenter Identitäts-Verstärkungslernverfahren

Zusammenfassung

Während groß angelegte Diffusionsmodelle die Videosynthese revolutioniert haben, bleibt die präzise Steuerung sowohl multi-subjektiver Identität als auch multi-granularer Bewegung eine große Herausforderung. Jüngste Versuche, diese Lücke zu schließen, leiden oft unter begrenzter Bewegungsgranularität, Kontrollunschärfe und Identitätsdegradierung, was zu suboptimaler Leistung bei der Identitätserhaltung und Bewegungssteuerung führt. In dieser Arbeit stellen wir DreamVideo-Omni vor, einen einheitlichen Rahmen, der harmonische Multi-Subjekt-Anpassung mit Omni-Bewegungssteuerung durch ein progressives Zwei-Stufen-Trainingsparadigma ermöglicht. In der ersten Stufe integrieren wir umfassende Steuersignale für gemeinsames Training, darunter Subjekterscheinungen, globale Bewegung, lokale Dynamik und Kamerabewegungen. Um robuste und präzise Steuerbarkeit zu gewährleisten, führen wir eine konditionsbewusste 3D-Rotations-Positionscodierung ein, um heterogene Eingaben zu koordinieren, sowie eine hierarchische Bewegungsinjektionsstrategie, um die globale Bewegungsführung zu verbessern. Darüber hinaus führen wir zur Lösung von Multi-Subjekt-Unschärfe Gruppen- und Rollen-Einbettungen ein, um Bewegungssignale explizit an bestimmte Identitäten zu binden und komplexe Szenen effektiv in unabhängig steuerbare Instanzen zu entwirren. In der zweiten Stufe entwerfen wir, um Identitätsdegradierung zu mildern, ein Paradigma des latenten Identitätsbelohnungs-Feedback-Lernens, indem wir ein latentes Identitätsbelohnungsmodell auf einem vortrainierten Video-Diffusions-Backbone trainieren. Dies liefert bewegungssensitive Identitätsbelohnungen im latenten Raum, die die Identitätserhaltung priorisieren, die mit menschlichen Präferenzen übereinstimmt. Gestützt durch unseren kuratierten großangelegten Datensatz und den umfassenden DreamOmni-Bench zur Bewertung der Multi-Subjekt- und Omni-Bewegungssteuerung, demonstriert DreamVideo-Omni überlegene Leistung bei der Erzeugung hochwertiger Videos mit präziser Steuerbarkeit.

English

While large-scale diffusion models have revolutionized video synthesis, achieving precise control over both multi-subject identity and multi-granularity motion remains a significant challenge. Recent attempts to bridge this gap often suffer from limited motion granularity, control ambiguity, and identity degradation, leading to suboptimal performance on identity preservation and motion control. In this work, we present DreamVideo-Omni, a unified framework enabling harmonious multi-subject customization with omni-motion control via a progressive two-stage training paradigm. In the first stage, we integrate comprehensive control signals for joint training, encompassing subject appearances, global motion, local dynamics, and camera movements. To ensure robust and precise controllability, we introduce a condition-aware 3D rotary positional embedding to coordinate heterogeneous inputs and a hierarchical motion injection strategy to enhance global motion guidance. Furthermore, to resolve multi-subject ambiguity, we introduce group and role embeddings to explicitly anchor motion signals to specific identities, effectively disentangling complex scenes into independent controllable instances. In the second stage, to mitigate identity degradation, we design a latent identity reward feedback learning paradigm by training a latent identity reward model upon a pretrained video diffusion backbone. This provides motion-aware identity rewards in the latent space, prioritizing identity preservation aligned with human preferences. Supported by our curated large-scale dataset and the comprehensive DreamOmni Bench for multi-subject and omni-motion control evaluation, DreamVideo-Omni demonstrates superior performance in generating high-quality videos with precise controllability.