DreamVideo-Omni : Personnalisation vidéo multi-sujets à contrôle de mouvement omnidirectionnel avec apprentissage par renforcement de l'identité latente

Résumé

Si les modèles de diffusion à grande échelle ont révolutionné la synthèse vidéo, le contrôle précis de l'identité multi-sujets et du mouvement multi-granularité reste un défi majeur. Les tentatives récentes pour combler cet écart souffrent souvent d'une granularité de mouvement limitée, d'une ambiguïté de contrôle et d'une dégradation identitaire, conduisant à des performances sous-optimales pour la préservation des identités et le contrôle du mouvement. Dans ce travail, nous présentons DreamVideo-Omni, un cadre unifié permettant une personnalisation harmonieuse multi-sujets avec un contrôle omni-mouvement via un paradigme d'apprentissage progressif en deux étapes. Dans la première étape, nous intégrons des signaux de contrôle complets pour un apprentissage conjoint, englobant les apparences des sujets, le mouvement global, la dynamique locale et les mouvements de caméra. Pour garantir une contrôlabilité robuste et précise, nous introduisons un encodage positionnel rotatif 3D conscient des conditions pour coordonner les entrées hétérogènes et une stratégie d'injection hiérarchique du mouvement pour renforcer le guidage du mouvement global. De plus, pour résoudre l'ambiguïté multi-sujets, nous introduisons des encodages de groupe et de rôle pour ancrer explicitement les signaux de mouvement à des identités spécifiques, désentrelaçant efficacement les scènes complexes en instances contrôlables indépendantes. Dans la deuxième étape, pour atténuer la dégradation identitaire, nous concevons un paradigme d'apprentissage par rétroaction de récompense identitaire latente en entraînant un modèle de récompense identitaire latente sur une architecture de diffusion vidéo pré-entraînée. Cela fournit des récompenses identitaires sensibles au mouvement dans l'espace latent, priorisant la préservation de l'identité alignée sur les préférences humaines. Soutenu par notre jeu de données à grande échelle soigneusement constitué et par le benchmark complet DreamOmni Bench pour l'évaluation du contrôle multi-sujets et omni-mouvement, DreamVideo-Omni démontre des performances supérieures dans la génération de vidéos de haute qualité avec une contrôlabilité précise.

English

While large-scale diffusion models have revolutionized video synthesis, achieving precise control over both multi-subject identity and multi-granularity motion remains a significant challenge. Recent attempts to bridge this gap often suffer from limited motion granularity, control ambiguity, and identity degradation, leading to suboptimal performance on identity preservation and motion control. In this work, we present DreamVideo-Omni, a unified framework enabling harmonious multi-subject customization with omni-motion control via a progressive two-stage training paradigm. In the first stage, we integrate comprehensive control signals for joint training, encompassing subject appearances, global motion, local dynamics, and camera movements. To ensure robust and precise controllability, we introduce a condition-aware 3D rotary positional embedding to coordinate heterogeneous inputs and a hierarchical motion injection strategy to enhance global motion guidance. Furthermore, to resolve multi-subject ambiguity, we introduce group and role embeddings to explicitly anchor motion signals to specific identities, effectively disentangling complex scenes into independent controllable instances. In the second stage, to mitigate identity degradation, we design a latent identity reward feedback learning paradigm by training a latent identity reward model upon a pretrained video diffusion backbone. This provides motion-aware identity rewards in the latent space, prioritizing identity preservation aligned with human preferences. Supported by our curated large-scale dataset and the comprehensive DreamOmni Bench for multi-subject and omni-motion control evaluation, DreamVideo-Omni demonstrates superior performance in generating high-quality videos with precise controllability.