ChatPaper.aiChatPaper

MagicID : Optimisation hybride des préférences pour une personnalisation vidéo cohérente en termes d'identité et préservant la dynamique

MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization

March 16, 2025
Auteurs: Hengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai
cs.AI

Résumé

La personnalisation d'identité vidéo vise à produire des vidéos haute fidélité qui maintiennent une identité cohérente et présentent des dynamiques significatives à partir d'images de référence fournies par les utilisateurs. Cependant, les approches existantes rencontrent deux défis majeurs : la dégradation de l'identité sur de longues durées vidéo et une réduction des dynamiques pendant l'entraînement, principalement en raison de leur dépendance à l'auto-reconstruction traditionnelle avec des images statiques. Pour résoudre ces problèmes, nous introduisons MagicID, un nouveau cadre conçu pour favoriser directement la génération de vidéos cohérentes en termes d'identité et riches en dynamiques, adaptées aux préférences des utilisateurs. Plus précisément, nous proposons de construire des données vidéo de préférences par paires avec des récompenses explicites pour l'identité et la dynamique, plutôt que de s'en tenir à l'auto-reconstruction traditionnelle. Pour répondre aux contraintes des données de préférences personnalisées, nous introduisons une stratégie d'échantillonnage hybride. Cette approche priorise d'abord la préservation de l'identité en exploitant des vidéos statiques dérivées des images de référence, puis améliore la qualité des mouvements dynamiques dans les vidéos générées en utilisant une méthode d'échantillonnage basée sur les frontières. En utilisant ces paires de préférences hybrides, nous optimisons le modèle pour qu'il s'aligne sur les différences de récompenses entre les paires de préférences personnalisées. Des expériences approfondies montrent que MagicID réussit à atteindre une identité cohérente et des dynamiques naturelles, surpassant les méthodes existantes sur diverses métriques.
English
Video identity customization seeks to produce high-fidelity videos that maintain consistent identity and exhibit significant dynamics based on users' reference images. However, existing approaches face two key challenges: identity degradation over extended video length and reduced dynamics during training, primarily due to their reliance on traditional self-reconstruction training with static images. To address these issues, we introduce MagicID, a novel framework designed to directly promote the generation of identity-consistent and dynamically rich videos tailored to user preferences. Specifically, we propose constructing pairwise preference video data with explicit identity and dynamic rewards for preference learning, instead of sticking to the traditional self-reconstruction. To address the constraints of customized preference data, we introduce a hybrid sampling strategy. This approach first prioritizes identity preservation by leveraging static videos derived from reference images, then enhances dynamic motion quality in the generated videos using a Frontier-based sampling method. By utilizing these hybrid preference pairs, we optimize the model to align with the reward differences between pairs of customized preferences. Extensive experiments show that MagicID successfully achieves consistent identity and natural dynamics, surpassing existing methods across various metrics.

Summary

AI-Generated Summary

PDF52March 21, 2025