DreamVideo-Omni: Alomvattende Bewegingsgestuurde Video-Aanpassing voor Meerdere Onderwerpen met Latente Identiteitsversterkend Leren

Samenvatting

Hoewel grootschalige diffusiemodellen een revolutie teweeg hebben gebracht in videosynthese, blijft het verkrijgen van precieze controle over zowel multi-subject identiteit als multi-granulariteit beweging een aanzienlijke uitdaging. Recente pogingen om deze kloof te overbruggen, lijden vaak onder beperkte bewegingsgranulariteit, controle-ambiguïteit en identiteitsdegradatie, wat leidt tot suboptimale prestaties op het gebied van identiteitsbehoud en bewegingscontrole. In dit werk presenteren we DreamVideo-Omni, een uniform raamwerk dat harmonieuze multi-subject aanpassing mogelijk maakt met alomvattende bewegingscontrole via een progressief tweefasen trainingsparadigma. In de eerste fase integreren we uitgebreide controlesignalen voor gezamenlijke training, waaronder subjectverschijningen, globale beweging, lokale dynamiek en camerabewegingen. Om robuuste en precieze controleerbaarheid te waarborgen, introduceren we een conditiebewuste 3D roterende positionele inbedding om heterogene invoer te coördineren en een hiërarchische bewegingsinjectiestrategie om de globale bewegingssturing te versterken. Verder introduceren we, om multi-subject ambiguïteit op te lossen, groep- en rol-inbeddingen om bewegingssignalen expliciet aan specifieke identiteiten te verankeren, waardoor complexe scènes effectief worden ontward in onafhankelijk controleerbare instanties. In de tweede fase ontwerpen we, om identiteitsdegradatie tegen te gaan, een latent identiteitsbeloningsfeedback-leerparadigma door een latent identiteitsbeloningsmodel te trainen op een voorgetrainde videodiffusie-backbone. Dit voorziet in bewegingbewuste identiteitsbeloningen in de latente ruimte, waarbij identiteitsbehoud dat is afgestemd op menselijke voorkeuren prioriteit krijgt. Ondersteund door onze samengestelde grootschalige dataset en de uitgebreide DreamOmni Bench voor multi-subject en alomvattende bewegingscontrole-evaluatie, demonstreert DreamVideo-Omni superieure prestaties in het genereren van hoogwaardige video's met precieze controleerbaarheid.

English

While large-scale diffusion models have revolutionized video synthesis, achieving precise control over both multi-subject identity and multi-granularity motion remains a significant challenge. Recent attempts to bridge this gap often suffer from limited motion granularity, control ambiguity, and identity degradation, leading to suboptimal performance on identity preservation and motion control. In this work, we present DreamVideo-Omni, a unified framework enabling harmonious multi-subject customization with omni-motion control via a progressive two-stage training paradigm. In the first stage, we integrate comprehensive control signals for joint training, encompassing subject appearances, global motion, local dynamics, and camera movements. To ensure robust and precise controllability, we introduce a condition-aware 3D rotary positional embedding to coordinate heterogeneous inputs and a hierarchical motion injection strategy to enhance global motion guidance. Furthermore, to resolve multi-subject ambiguity, we introduce group and role embeddings to explicitly anchor motion signals to specific identities, effectively disentangling complex scenes into independent controllable instances. In the second stage, to mitigate identity degradation, we design a latent identity reward feedback learning paradigm by training a latent identity reward model upon a pretrained video diffusion backbone. This provides motion-aware identity rewards in the latent space, prioritizing identity preservation aligned with human preferences. Supported by our curated large-scale dataset and the comprehensive DreamOmni Bench for multi-subject and omni-motion control evaluation, DreamVideo-Omni demonstrates superior performance in generating high-quality videos with precise controllability.