DreamVideo-Omni: Customização de Vídeo Multiassunto Controlada por Movimento Ômni com Aprendizado por Reforço de Identidade Latente

Resumo

Embora os modelos de difusão em larga escala tenham revolucionado a síntese de vídeo, alcançar um controle preciso sobre a identidade de múltiplos sujeitos e o movimento multi-granularidade continua sendo um desafio significativo. Tentativas recentes de preencher essa lacuna frequentemente sofrem com granularidade de movimento limitada, ambiguidade de controle e degradação de identidade, resultando em desempenho abaixo do ideal na preservação de identidade e no controle de movimento. Neste trabalho, apresentamos o DreamVideo-Omni, uma estrutura unificada que permite a customização harmoniosa de múltiplos sujeitos com controle de movimento total por meio de um paradigma de treinamento progressivo em dois estágios. No primeiro estágio, integramos sinais de controle abrangentes para treinamento conjunto, abrangendo aparências dos sujeitos, movimento global, dinâmicas locais e movimentos de câmera. Para garantir uma controlabilidade robusta e precisa, introduzimos uma incorporação posicional rotatória 3D consciente da condição para coordenar entradas heterogêneas e uma estratégia de injeção de movimento hierárquica para aprimorar a orientação de movimento global. Adicionalmente, para resolver a ambiguidade de múltiplos sujeitos, introduzimos incorporações de grupo e função para ancorar explicitamente sinais de movimento a identidades específicas, desembaraçando efetivamente cenas complexas em instâncias controláveis independentes. No segundo estágio, para mitigar a degradação de identidade, projetamos um paradigma de aprendizado por feedback de recompensa de identidade latente, treinando um modelo de recompensa de identidade latente sobre uma base de difusão de vídeo pré-treinada. Isso fornece recompensas de identidade conscientes do movimento no espaço latente, priorizando a preservação de identidade alinhada com as preferências humanas. Suportado pelo nosso conjunto de dados em larga escala curado e pela abrangente DreamOmni Bench para avaliação de controle de múltiplos sujeitos e movimento total, o DreamVideo-Omni demonstra desempenho superior na geração de vídeos de alta qualidade com controlabilidade precisa.

English

While large-scale diffusion models have revolutionized video synthesis, achieving precise control over both multi-subject identity and multi-granularity motion remains a significant challenge. Recent attempts to bridge this gap often suffer from limited motion granularity, control ambiguity, and identity degradation, leading to suboptimal performance on identity preservation and motion control. In this work, we present DreamVideo-Omni, a unified framework enabling harmonious multi-subject customization with omni-motion control via a progressive two-stage training paradigm. In the first stage, we integrate comprehensive control signals for joint training, encompassing subject appearances, global motion, local dynamics, and camera movements. To ensure robust and precise controllability, we introduce a condition-aware 3D rotary positional embedding to coordinate heterogeneous inputs and a hierarchical motion injection strategy to enhance global motion guidance. Furthermore, to resolve multi-subject ambiguity, we introduce group and role embeddings to explicitly anchor motion signals to specific identities, effectively disentangling complex scenes into independent controllable instances. In the second stage, to mitigate identity degradation, we design a latent identity reward feedback learning paradigm by training a latent identity reward model upon a pretrained video diffusion backbone. This provides motion-aware identity rewards in the latent space, prioritizing identity preservation aligned with human preferences. Supported by our curated large-scale dataset and the comprehensive DreamOmni Bench for multi-subject and omni-motion control evaluation, DreamVideo-Omni demonstrates superior performance in generating high-quality videos with precise controllability.