ChatPaper.aiChatPaper

Magic-Me: Personalização de Vídeo Específica de Identidade com Difusão

Magic-Me: Identity-Specific Video Customized Diffusion

February 14, 2024
Autores: Ze Ma, Daquan Zhou, Chun-Hsiao Yeh, Xue-She Wang, Xiuyu Li, Huanrui Yang, Zhen Dong, Kurt Keutzer, Jiashi Feng
cs.AI

Resumo

A criação de conteúdo para uma identidade específica (ID) tem despertado grande interesse no campo dos modelos generativos. Na área de geração de texto para imagem (T2I), a geração de conteúdo orientada por sujeitos alcançou progressos significativos, com a ID nas imagens sendo controlável. No entanto, sua extensão para a geração de vídeo ainda não foi amplamente explorada. Neste trabalho, propomos uma estrutura simples, porém eficaz, para geração de vídeo com controle de identidade do sujeito, denominada Video Custom Diffusion (VCD). Com uma ID de sujeito especificada por algumas imagens, o VCD reforça a extração de informações de identidade e injeta correlação entre quadros na fase de inicialização, produzindo vídeos estáveis com a identidade preservada em grande parte. Para isso, propomos três componentes novos que são essenciais para a preservação de alta qualidade da ID: 1) um módulo de ID treinado com a identidade recortada por segmentação baseada em prompt, para separar as informações da ID e o ruído de fundo, permitindo um aprendizado mais preciso dos tokens de ID; 2) um módulo de texto para vídeo (T2V) VCD com Prior de Ruído Gaussiano 3D para melhor consistência entre quadros; e 3) módulos de vídeo para vídeo (V2V) Face VCD e Tiled VCD para desfocar o rosto e aumentar a resolução do vídeo. Apesar de sua simplicidade, realizamos experimentos extensivos para verificar que o VCD é capaz de gerar vídeos estáveis e de alta qualidade com melhor preservação de ID em comparação com as linhas de base selecionadas. Além disso, devido à transferibilidade do módulo de ID, o VCD também funciona bem com modelos de texto para imagem ajustados disponíveis publicamente, melhorando ainda mais sua usabilidade. Os códigos estão disponíveis em https://github.com/Zhen-Dong/Magic-Me.
English
Creating content for a specific identity (ID) has shown significant interest in the field of generative models. In the field of text-to-image generation (T2I), subject-driven content generation has achieved great progress with the ID in the images controllable. However, extending it to video generation is not well explored. In this work, we propose a simple yet effective subject identity controllable video generation framework, termed Video Custom Diffusion (VCD). With a specified subject ID defined by a few images, VCD reinforces the identity information extraction and injects frame-wise correlation at the initialization stage for stable video outputs with identity preserved to a large extent. To achieve this, we propose three novel components that are essential for high-quality ID preservation: 1) an ID module trained with the cropped identity by prompt-to-segmentation to disentangle the ID information and the background noise for more accurate ID token learning; 2) a text-to-video (T2V) VCD module with 3D Gaussian Noise Prior for better inter-frame consistency and 3) video-to-video (V2V) Face VCD and Tiled VCD modules to deblur the face and upscale the video for higher resolution. Despite its simplicity, we conducted extensive experiments to verify that VCD is able to generate stable and high-quality videos with better ID over the selected strong baselines. Besides, due to the transferability of the ID module, VCD is also working well with finetuned text-to-image models available publically, further improving its usability. The codes are available at https://github.com/Zhen-Dong/Magic-Me.
PDF302December 15, 2024