DreamVideo-Omni: Personalizzazione Video Multi-Soggetto Controllata da Movimento Onni-direzionale con Apprendimento per Rinforzo dell'Identità Latente

Abstract

Sebbene i modelli di diffusione su larga scala abbiano rivoluzionato la sintesi video, ottenere un controllo preciso sia sull'identità multi-soggetto che sul movimento multi-granularità rimane una sfida significativa. I recenti tentativi di colmare questa lacuna spesso soffrono di granularità del movimento limitata, ambiguità di controllo e degrado dell'identità, portando a prestazioni subottimali nella preservazione dell'identità e nel controllo del movimento. In questo lavoro, presentiamo DreamVideo-Omni, un framework unificato che abilita una personalizzazione armoniosa multi-soggetto con controllo omni-motion attraverso un paradigma di addestramento progressivo a due stadi. Nella prima fase, integriamo segnali di controllo completi per un addestramento congiunto, che comprende l'aspetto dei soggetti, il movimento globale, la dinamica locale e i movimenti della telecamera. Per garantire una controllabilità robusta e precisa, introduciamo un embedding posizionale rotatorio 3D consapevole delle condizioni per coordinare input eterogenei e una strategia di iniezione gerarchica del movimento per potenziare la guida del movimento globale. Inoltre, per risolvere l'ambiguità multi-soggetto, introduciamo embedding di gruppo e di ruolo per ancorare esplicitamente i segnali di movimento a identità specifiche, scomponendo efficacemente scene complesse in istanze controllabili indipendenti. Nella seconda fase, per mitigare il degrado dell'identità, progettiamo un paradigma di apprendimento con feedback di ricompensa per l'identità latente, addestrando un modello di ricompensa per l'identità latente su un backbone pre-addestrato di diffusione video. Questo fornisce ricompense per l'identità consapevoli del movimento nello spazio latente, privilegiando la preservazione dell'identità allineata con le preferenze umane. Supportato dal nostro dataset su larga scala curato e dall'esaustiva DreamOmni Bench per la valutazione del controllo multi-soggetto e omni-motion, DreamVideo-Omni dimostra prestazioni superiori nella generazione di video di alta qualità con una controllabilità precisa.

English

While large-scale diffusion models have revolutionized video synthesis, achieving precise control over both multi-subject identity and multi-granularity motion remains a significant challenge. Recent attempts to bridge this gap often suffer from limited motion granularity, control ambiguity, and identity degradation, leading to suboptimal performance on identity preservation and motion control. In this work, we present DreamVideo-Omni, a unified framework enabling harmonious multi-subject customization with omni-motion control via a progressive two-stage training paradigm. In the first stage, we integrate comprehensive control signals for joint training, encompassing subject appearances, global motion, local dynamics, and camera movements. To ensure robust and precise controllability, we introduce a condition-aware 3D rotary positional embedding to coordinate heterogeneous inputs and a hierarchical motion injection strategy to enhance global motion guidance. Furthermore, to resolve multi-subject ambiguity, we introduce group and role embeddings to explicitly anchor motion signals to specific identities, effectively disentangling complex scenes into independent controllable instances. In the second stage, to mitigate identity degradation, we design a latent identity reward feedback learning paradigm by training a latent identity reward model upon a pretrained video diffusion backbone. This provides motion-aware identity rewards in the latent space, prioritizing identity preservation aligned with human preferences. Supported by our curated large-scale dataset and the comprehensive DreamOmni Bench for multi-subject and omni-motion control evaluation, DreamVideo-Omni demonstrates superior performance in generating high-quality videos with precise controllability.