ChatPaper.aiChatPaper

MagicID: Ottimizzazione Ibrida delle Preferenze per la Personalizzazione di Video con Identità Coerente e Dinamica Preservata

MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization

March 16, 2025
Autori: Hengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai
cs.AI

Abstract

La personalizzazione dell'identità video mira a produrre video ad alta fedeltà che mantengano un'identità coerente e mostrino dinamiche significative basate sulle immagini di riferimento degli utenti. Tuttavia, gli approcci esistenti affrontano due sfide principali: il degrado dell'identità su una lunghezza video estesa e la riduzione delle dinamiche durante l'addestramento, principalmente a causa della loro dipendenza dal tradizionale addestramento di auto-ricostruzione con immagini statiche. Per affrontare questi problemi, introduciamo MagicID, un nuovo framework progettato per promuovere direttamente la generazione di video con identità coerente e dinamiche ricche, personalizzati in base alle preferenze dell'utente. Nello specifico, proponiamo la costruzione di dati video di preferenza a coppie con ricompense esplicite per l'identità e le dinamiche per l'apprendimento delle preferenze, invece di limitarsi alla tradizionale auto-ricostruzione. Per affrontare i vincoli dei dati personalizzati di preferenza, introduciamo una strategia di campionamento ibrida. Questo approccio dapprima privilegia la preservazione dell'identità sfruttando video statici derivati dalle immagini di riferimento, poi migliora la qualità del movimento dinamico nei video generati utilizzando un metodo di campionamento basato su Frontier. Utilizzando queste coppie di preferenza ibride, ottimizziamo il modello per allinearsi alle differenze di ricompensa tra le coppie di preferenze personalizzate. Esperimenti estensivi dimostrano che MagicID raggiunge con successo un'identità coerente e dinamiche naturali, superando i metodi esistenti su varie metriche.
English
Video identity customization seeks to produce high-fidelity videos that maintain consistent identity and exhibit significant dynamics based on users' reference images. However, existing approaches face two key challenges: identity degradation over extended video length and reduced dynamics during training, primarily due to their reliance on traditional self-reconstruction training with static images. To address these issues, we introduce MagicID, a novel framework designed to directly promote the generation of identity-consistent and dynamically rich videos tailored to user preferences. Specifically, we propose constructing pairwise preference video data with explicit identity and dynamic rewards for preference learning, instead of sticking to the traditional self-reconstruction. To address the constraints of customized preference data, we introduce a hybrid sampling strategy. This approach first prioritizes identity preservation by leveraging static videos derived from reference images, then enhances dynamic motion quality in the generated videos using a Frontier-based sampling method. By utilizing these hybrid preference pairs, we optimize the model to align with the reward differences between pairs of customized preferences. Extensive experiments show that MagicID successfully achieves consistent identity and natural dynamics, surpassing existing methods across various metrics.
PDF52March 21, 2025