ChatPaper.aiChatPaper

MagicID: Hybride Voorkeursoptimalisatie voor ID-consistente en dynamiekbehoudende videopersonalisatie

MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization

March 16, 2025
Auteurs: Hengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai
cs.AI

Samenvatting

Video-identiteitsaanpassing streeft ernaar hoogwaardige video's te produceren die een consistente identiteit behouden en aanzienlijke dynamiek vertonen op basis van referentiebeelden van gebruikers. Bestaande methoden kampen echter met twee belangrijke uitdagingen: identiteitsdegradatie over langere videolengtes en verminderde dynamiek tijdens de training, voornamelijk vanwege hun afhankelijkheid van traditionele zelfreconstructietraining met statische beelden. Om deze problemen aan te pakken, introduceren we MagicID, een nieuw framework dat is ontworpen om direct de generatie van identiteitsconsistente en dynamisch rijke video's afgestemd op gebruikersvoorkeuren te bevorderen. Specifiek stellen we voor om gepaarde voorkeursvideogegevens te construeren met expliciete identiteits- en dynamiekbeloningen voor voorkeursleren, in plaats van vast te houden aan de traditionele zelfreconstructie. Om de beperkingen van aangepaste voorkeursgegevens aan te pakken, introduceren we een hybride samplingstrategie. Deze aanpak prioriteert eerst identiteitsbehoud door gebruik te maken van statische video's afgeleid van referentiebeelden, en verbetert vervolgens de kwaliteit van dynamische beweging in de gegenereerde video's met behulp van een Frontier-gebaseerde samplingmethode. Door deze hybride voorkeursparen te gebruiken, optimaliseren we het model om af te stemmen op de beloningsverschillen tussen paren van aangepaste voorkeuren. Uitgebreide experimenten tonen aan dat MagicID met succes consistente identiteit en natuurlijke dynamiek bereikt, en daarmee bestaande methoden op verschillende metrieken overtreft.
English
Video identity customization seeks to produce high-fidelity videos that maintain consistent identity and exhibit significant dynamics based on users' reference images. However, existing approaches face two key challenges: identity degradation over extended video length and reduced dynamics during training, primarily due to their reliance on traditional self-reconstruction training with static images. To address these issues, we introduce MagicID, a novel framework designed to directly promote the generation of identity-consistent and dynamically rich videos tailored to user preferences. Specifically, we propose constructing pairwise preference video data with explicit identity and dynamic rewards for preference learning, instead of sticking to the traditional self-reconstruction. To address the constraints of customized preference data, we introduce a hybrid sampling strategy. This approach first prioritizes identity preservation by leveraging static videos derived from reference images, then enhances dynamic motion quality in the generated videos using a Frontier-based sampling method. By utilizing these hybrid preference pairs, we optimize the model to align with the reward differences between pairs of customized preferences. Extensive experiments show that MagicID successfully achieves consistent identity and natural dynamics, surpassing existing methods across various metrics.

Summary

AI-Generated Summary

PDF52March 21, 2025