ChatPaper.aiChatPaper

MagicID: Otimização Híbrida de Preferências para Personalização de Vídeo com Consistência de Identidade e Preservação Dinâmica

MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization

March 16, 2025
Autores: Hengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai
cs.AI

Resumo

A personalização de identidade em vídeo busca produzir vídeos de alta fidelidade que mantenham uma identidade consistente e exibam dinâmicas significativas com base em imagens de referência dos usuários. No entanto, as abordagens existentes enfrentam dois desafios principais: a degradação da identidade ao longo de vídeos extensos e a redução das dinâmicas durante o treinamento, principalmente devido à dependência da tradicional reconstrução automática com imagens estáticas. Para resolver esses problemas, introduzimos o MagicID, uma nova estrutura projetada para promover diretamente a geração de vídeos com identidade consistente e dinâmicas ricas, adaptados às preferências do usuário. Especificamente, propomos a construção de dados de vídeo com preferências pareadas, contendo recompensas explícitas de identidade e dinâmica para o aprendizado de preferências, em vez de nos limitarmos à reconstrução automática tradicional. Para lidar com as limitações dos dados personalizados de preferência, introduzimos uma estratégia de amostragem híbrida. Essa abordagem prioriza primeiro a preservação da identidade ao aproveitar vídeos estáticos derivados de imagens de referência e, em seguida, melhora a qualidade do movimento dinâmico nos vídeos gerados usando um método de amostragem baseado em Fronteira. Ao utilizar esses pares de preferências híbridas, otimizamos o modelo para alinhar-se às diferenças de recompensa entre os pares de preferências personalizadas. Experimentos extensivos mostram que o MagicID alcança com sucesso uma identidade consistente e dinâmicas naturais, superando os métodos existentes em várias métricas.
English
Video identity customization seeks to produce high-fidelity videos that maintain consistent identity and exhibit significant dynamics based on users' reference images. However, existing approaches face two key challenges: identity degradation over extended video length and reduced dynamics during training, primarily due to their reliance on traditional self-reconstruction training with static images. To address these issues, we introduce MagicID, a novel framework designed to directly promote the generation of identity-consistent and dynamically rich videos tailored to user preferences. Specifically, we propose constructing pairwise preference video data with explicit identity and dynamic rewards for preference learning, instead of sticking to the traditional self-reconstruction. To address the constraints of customized preference data, we introduce a hybrid sampling strategy. This approach first prioritizes identity preservation by leveraging static videos derived from reference images, then enhances dynamic motion quality in the generated videos using a Frontier-based sampling method. By utilizing these hybrid preference pairs, we optimize the model to align with the reward differences between pairs of customized preferences. Extensive experiments show that MagicID successfully achieves consistent identity and natural dynamics, surpassing existing methods across various metrics.

Summary

AI-Generated Summary

PDF52March 21, 2025