ChatPaper.aiChatPaper

MagicID: ID 일관성과 동적 특성 보존을 위한 하이브리드 선호 최적화 기반 비디오 커스터마이징

MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization

March 16, 2025
저자: Hengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai
cs.AI

초록

비디오 아이덴티티 커스터마이제이션은 사용자의 참조 이미지를 기반으로 일관된 아이덴티티를 유지하면서도 상당한 동적 특성을 보이는 고화질 비디오를 생성하는 것을 목표로 합니다. 그러나 기존 방법들은 두 가지 주요 문제에 직면해 있습니다: 긴 비디오 길이에 걸친 아이덴티티 저하와 훈련 중 동적 특성 감소로, 이는 주로 정적 이미지를 사용한 전통적인 자기 재구성 훈련에 의존하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 사용자 선호에 맞춰 아이덴티티가 일관되고 동적 특성이 풍부한 비디오를 직접적으로 촉진하기 위해 설계된 새로운 프레임워크인 MagicID를 소개합니다. 구체적으로, 우리는 전통적인 자기 재구성에 얽매이지 않고 명시적인 아이덴티티와 동적 보상을 포함한 쌍별 선호 비디오 데이터를 구성하여 선호 학습을 진행할 것을 제안합니다. 커스터마이즈된 선호 데이터의 제약을 해결하기 위해, 우리는 하이브리드 샘플링 전략을 도입합니다. 이 접근법은 먼저 참조 이미지에서 파생된 정적 비디오를 활용하여 아이덴티티 보존을 우선시한 다음, Frontier 기반 샘플링 방법을 사용하여 생성된 비디오의 동적 움직임 품질을 향상시킵니다. 이러한 하이브리드 선호 쌍을 활용함으로써, 우리는 모델을 커스터마이즈된 선호 간의 보상 차이에 맞춰 최적화합니다. 광범위한 실험을 통해 MagicID가 일관된 아이덴티티와 자연스러운 동적 특성을 성공적으로 달성하며, 다양한 메트릭에서 기존 방법들을 능가함을 보여줍니다.
English
Video identity customization seeks to produce high-fidelity videos that maintain consistent identity and exhibit significant dynamics based on users' reference images. However, existing approaches face two key challenges: identity degradation over extended video length and reduced dynamics during training, primarily due to their reliance on traditional self-reconstruction training with static images. To address these issues, we introduce MagicID, a novel framework designed to directly promote the generation of identity-consistent and dynamically rich videos tailored to user preferences. Specifically, we propose constructing pairwise preference video data with explicit identity and dynamic rewards for preference learning, instead of sticking to the traditional self-reconstruction. To address the constraints of customized preference data, we introduce a hybrid sampling strategy. This approach first prioritizes identity preservation by leveraging static videos derived from reference images, then enhances dynamic motion quality in the generated videos using a Frontier-based sampling method. By utilizing these hybrid preference pairs, we optimize the model to align with the reward differences between pairs of customized preferences. Extensive experiments show that MagicID successfully achieves consistent identity and natural dynamics, surpassing existing methods across various metrics.

Summary

AI-Generated Summary

PDF52March 21, 2025