ChatPaper.aiChatPaper

MagicID: Optimización Híbrida de Preferencias para la Personalización de Videos con Identidad Consistente y Dinámica Preservada

MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization

March 16, 2025
Autores: Hengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai
cs.AI

Resumen

La personalización de identidad en video busca producir videos de alta fidelidad que mantengan una identidad consistente y exhiban una dinámica significativa basada en imágenes de referencia proporcionadas por los usuarios. Sin embargo, los enfoques existentes enfrentan dos desafíos principales: la degradación de la identidad en videos de larga duración y la reducción de la dinámica durante el entrenamiento, principalmente debido a su dependencia del entrenamiento tradicional de auto-reconstrucción con imágenes estáticas. Para abordar estos problemas, presentamos MagicID, un marco novedoso diseñado para promover directamente la generación de videos con identidad consistente y dinámica enriquecida, adaptados a las preferencias del usuario. Específicamente, proponemos la construcción de datos de video de preferencias pareadas con recompensas explícitas de identidad y dinámica para el aprendizaje de preferencias, en lugar de limitarse a la auto-reconstrucción tradicional. Para abordar las limitaciones de los datos personalizados de preferencias, introducimos una estrategia de muestreo híbrida. Este enfoque prioriza primero la preservación de la identidad aprovechando videos estáticos derivados de imágenes de referencia, y luego mejora la calidad del movimiento dinámico en los videos generados utilizando un método de muestreo basado en Fronteras. Al utilizar estos pares de preferencias híbridas, optimizamos el modelo para alinearse con las diferencias de recompensa entre pares de preferencias personalizadas. Experimentos exhaustivos muestran que MagicID logra con éxito una identidad consistente y una dinámica natural, superando a los métodos existentes en diversas métricas.
English
Video identity customization seeks to produce high-fidelity videos that maintain consistent identity and exhibit significant dynamics based on users' reference images. However, existing approaches face two key challenges: identity degradation over extended video length and reduced dynamics during training, primarily due to their reliance on traditional self-reconstruction training with static images. To address these issues, we introduce MagicID, a novel framework designed to directly promote the generation of identity-consistent and dynamically rich videos tailored to user preferences. Specifically, we propose constructing pairwise preference video data with explicit identity and dynamic rewards for preference learning, instead of sticking to the traditional self-reconstruction. To address the constraints of customized preference data, we introduce a hybrid sampling strategy. This approach first prioritizes identity preservation by leveraging static videos derived from reference images, then enhances dynamic motion quality in the generated videos using a Frontier-based sampling method. By utilizing these hybrid preference pairs, we optimize the model to align with the reward differences between pairs of customized preferences. Extensive experiments show that MagicID successfully achieves consistent identity and natural dynamics, surpassing existing methods across various metrics.

Summary

AI-Generated Summary

PDF52March 21, 2025