ChatPaper.aiChatPaper

MagicID: Гибридная оптимизация предпочтений для персонализации видео с сохранением идентичности и динамики

MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization

March 16, 2025
Авторы: Hengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai
cs.AI

Аннотация

Настройка идентичности видео направлена на создание высококачественных видеороликов, которые сохраняют согласованность идентичности и демонстрируют значительную динамику на основе эталонных изображений пользователей. Однако существующие подходы сталкиваются с двумя ключевыми проблемами: ухудшением идентичности при увеличении продолжительности видео и снижением динамики в процессе обучения, что в основном связано с их зависимостью от традиционного обучения с использованием самовосстановления на статических изображениях. Для решения этих проблем мы представляем MagicID — новую структуру, разработанную для непосредственного содействия генерации видео с согласованной идентичностью и богатой динамикой, адаптированных под предпочтения пользователей. В частности, мы предлагаем создавать парные данные видео с явными наградами за идентичность и динамику для обучения на основе предпочтений, вместо того чтобы придерживаться традиционного самовосстановления. Для преодоления ограничений, связанных с настройкой данных предпочтений, мы вводим гибридную стратегию выборки. Этот подход сначала уделяет приоритетное внимание сохранению идентичности, используя статические видео, полученные из эталонных изображений, а затем улучшает качество динамики в генерируемых видео с помощью метода выборки на основе границы. Используя эти гибридные пары предпочтений, мы оптимизируем модель для соответствия разнице в наградах между парами настроенных предпочтений. Многочисленные эксперименты показывают, что MagicID успешно достигает согласованной идентичности и естественной динамики, превосходя существующие методы по различным метрикам.
English
Video identity customization seeks to produce high-fidelity videos that maintain consistent identity and exhibit significant dynamics based on users' reference images. However, existing approaches face two key challenges: identity degradation over extended video length and reduced dynamics during training, primarily due to their reliance on traditional self-reconstruction training with static images. To address these issues, we introduce MagicID, a novel framework designed to directly promote the generation of identity-consistent and dynamically rich videos tailored to user preferences. Specifically, we propose constructing pairwise preference video data with explicit identity and dynamic rewards for preference learning, instead of sticking to the traditional self-reconstruction. To address the constraints of customized preference data, we introduce a hybrid sampling strategy. This approach first prioritizes identity preservation by leveraging static videos derived from reference images, then enhances dynamic motion quality in the generated videos using a Frontier-based sampling method. By utilizing these hybrid preference pairs, we optimize the model to align with the reward differences between pairs of customized preferences. Extensive experiments show that MagicID successfully achieves consistent identity and natural dynamics, surpassing existing methods across various metrics.

Summary

AI-Generated Summary

PDF52March 21, 2025