MagicID: ID 일관성과 동적 특성 보존을 위한 하이브리드 선호 최적화 기반 비디오 커스터마이징
MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization
March 16, 2025
저자: Hengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai
cs.AI
초록
비디오 아이덴티티 커스터마이제이션은 사용자의 참조 이미지를 기반으로 일관된 아이덴티티를 유지하면서도 상당한 동적 특성을 보이는 고화질 비디오를 생성하는 것을 목표로 합니다. 그러나 기존 방법들은 두 가지 주요 문제에 직면해 있습니다: 긴 비디오 길이에 걸친 아이덴티티 저하와 훈련 중 동적 특성 감소로, 이는 주로 정적 이미지를 사용한 전통적인 자기 재구성 훈련에 의존하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 사용자 선호에 맞춰 아이덴티티가 일관되고 동적 특성이 풍부한 비디오를 직접적으로 촉진하기 위해 설계된 새로운 프레임워크인 MagicID를 소개합니다. 구체적으로, 우리는 전통적인 자기 재구성에 얽매이지 않고 명시적인 아이덴티티와 동적 보상을 포함한 쌍별 선호 비디오 데이터를 구성하여 선호 학습을 진행할 것을 제안합니다. 커스터마이즈된 선호 데이터의 제약을 해결하기 위해, 우리는 하이브리드 샘플링 전략을 도입합니다. 이 접근법은 먼저 참조 이미지에서 파생된 정적 비디오를 활용하여 아이덴티티 보존을 우선시한 다음, Frontier 기반 샘플링 방법을 사용하여 생성된 비디오의 동적 움직임 품질을 향상시킵니다. 이러한 하이브리드 선호 쌍을 활용함으로써, 우리는 모델을 커스터마이즈된 선호 간의 보상 차이에 맞춰 최적화합니다. 광범위한 실험을 통해 MagicID가 일관된 아이덴티티와 자연스러운 동적 특성을 성공적으로 달성하며, 다양한 메트릭에서 기존 방법들을 능가함을 보여줍니다.
English
Video identity customization seeks to produce high-fidelity videos that
maintain consistent identity and exhibit significant dynamics based on users'
reference images. However, existing approaches face two key challenges:
identity degradation over extended video length and reduced dynamics during
training, primarily due to their reliance on traditional self-reconstruction
training with static images. To address these issues, we introduce
MagicID, a novel framework designed to directly promote the
generation of identity-consistent and dynamically rich videos tailored to user
preferences. Specifically, we propose constructing pairwise preference video
data with explicit identity and dynamic rewards for preference learning,
instead of sticking to the traditional self-reconstruction. To address the
constraints of customized preference data, we introduce a hybrid sampling
strategy. This approach first prioritizes identity preservation by leveraging
static videos derived from reference images, then enhances dynamic motion
quality in the generated videos using a Frontier-based sampling method. By
utilizing these hybrid preference pairs, we optimize the model to align with
the reward differences between pairs of customized preferences. Extensive
experiments show that MagicID successfully achieves consistent identity and
natural dynamics, surpassing existing methods across various metrics.Summary
AI-Generated Summary