DreamVideo-Omni: Personalización de Video Multi-Sujeto Controlada por Movimiento Omni con Aprendizaje por Refuerzo de Identidad Latente

Resumen

Si bien los modelos de difusión a gran escala han revolucionado la síntesis de video, lograr un control preciso sobre la identidad de múltiples sujetos y el movimiento de múltiples granularidades sigue siendo un desafío significativo. Los intentos recientes para salvar esta brecha a menudo adolecen de granularidad de movimiento limitada, ambigüedad de control y degradación de identidad, lo que conduce a un rendimiento subóptimo en la preservación de identidad y el control de movimiento. En este trabajo, presentamos DreamVideo-Omni, un marco unificado que permite la personalización armoniosa de múltiples sujetos con control de movimiento integral mediante un paradigma de entrenamiento progresivo de dos etapas. En la primera etapa, integramos señales de control integrales para el entrenamiento conjunto, abarcando apariencias de sujetos, movimiento global, dinámicas locales y movimientos de cámara. Para garantizar una capacidad de control robusta y precisa, introducimos una codificación posicional rotacional 3D sensible al contexto para coordinar entradas heterogéneas y una estrategia de inyección de movimiento jerárquica para mejorar la guía del movimiento global. Además, para resolver la ambigüedad de múltiples sujetos, introducimos incrustaciones de grupo y rol para anclar explícitamente las señales de movimiento a identidades específicas, desentrañando efectivamente escenas complejas en instancias controlables independientes. En la segunda etapa, para mitigar la degradación de identidad, diseñamos un paradigma de aprendizaje por retroalimentación de recompensa de identidad latente mediante el entrenamiento de un modelo de recompensa de identidad latente sobre un modelo base de difusión de video preentrenado. Esto proporciona recompensas de identidad sensibles al movimiento en el espacio latente, priorizando la preservación de identidad alineada con las preferencias humanas. Respaldado por nuestro conjunto de datos a gran escala cuidadosamente seleccionado y la evaluación integral DreamOmni Bench para el control de múltiples sujetos y movimiento integral, DreamVideo-Omni demuestra un rendimiento superior en la generación de videos de alta calidad con una capacidad de control precisa.

English

While large-scale diffusion models have revolutionized video synthesis, achieving precise control over both multi-subject identity and multi-granularity motion remains a significant challenge. Recent attempts to bridge this gap often suffer from limited motion granularity, control ambiguity, and identity degradation, leading to suboptimal performance on identity preservation and motion control. In this work, we present DreamVideo-Omni, a unified framework enabling harmonious multi-subject customization with omni-motion control via a progressive two-stage training paradigm. In the first stage, we integrate comprehensive control signals for joint training, encompassing subject appearances, global motion, local dynamics, and camera movements. To ensure robust and precise controllability, we introduce a condition-aware 3D rotary positional embedding to coordinate heterogeneous inputs and a hierarchical motion injection strategy to enhance global motion guidance. Furthermore, to resolve multi-subject ambiguity, we introduce group and role embeddings to explicitly anchor motion signals to specific identities, effectively disentangling complex scenes into independent controllable instances. In the second stage, to mitigate identity degradation, we design a latent identity reward feedback learning paradigm by training a latent identity reward model upon a pretrained video diffusion backbone. This provides motion-aware identity rewards in the latent space, prioritizing identity preservation aligned with human preferences. Supported by our curated large-scale dataset and the comprehensive DreamOmni Bench for multi-subject and omni-motion control evaluation, DreamVideo-Omni demonstrates superior performance in generating high-quality videos with precise controllability.