Magic-Me: Difusión Personalizada de Video Específica de Identidad
Magic-Me: Identity-Specific Video Customized Diffusion
February 14, 2024
Autores: Ze Ma, Daquan Zhou, Chun-Hsiao Yeh, Xue-She Wang, Xiuyu Li, Huanrui Yang, Zhen Dong, Kurt Keutzer, Jiashi Feng
cs.AI
Resumen
La creación de contenido para una identidad específica (ID) ha despertado un interés significativo en el campo de los modelos generativos. En el ámbito de la generación de imágenes a partir de texto (T2I), la generación de contenido basado en sujetos ha logrado grandes avances, permitiendo controlar la ID en las imágenes. Sin embargo, su extensión a la generación de videos no ha sido ampliamente explorada. En este trabajo, proponemos un marco simple pero efectivo para la generación de videos con control de identidad del sujeto, denominado Video Custom Diffusion (VCD). Con una ID de sujeto específica definida por unas pocas imágenes, VCD refuerza la extracción de información de identidad e inyecta correlación entre fotogramas en la etapa de inicialización para obtener salidas de video estables con la identidad preservada en gran medida. Para lograrlo, proponemos tres componentes novedosos esenciales para una preservación de ID de alta calidad: 1) un módulo de ID entrenado con la identidad recortada mediante segmentación basada en texto (prompt-to-segmentation) para separar la información de ID del ruido de fondo y lograr un aprendizaje más preciso de los tokens de ID; 2) un módulo de texto a video (T2V) VCD con un Prior de Ruido Gaussiano 3D para una mejor consistencia entre fotogramas; y 3) módulos de video a video (V2V) Face VCD y Tiled VCD para eliminar el desenfoque en rostros y aumentar la resolución del video.
A pesar de su simplicidad, realizamos extensos experimentos para verificar que VCD es capaz de generar videos estables y de alta calidad con una mejor preservación de ID en comparación con líneas base seleccionadas. Además, debido a la transferibilidad del módulo de ID, VCD también funciona bien con modelos de texto a imagen ajustados disponibles públicamente, mejorando aún más su usabilidad. Los códigos están disponibles en https://github.com/Zhen-Dong/Magic-Me.
English
Creating content for a specific identity (ID) has shown significant interest
in the field of generative models. In the field of text-to-image generation
(T2I), subject-driven content generation has achieved great progress with the
ID in the images controllable. However, extending it to video generation is not
well explored. In this work, we propose a simple yet effective subject identity
controllable video generation framework, termed Video Custom Diffusion (VCD).
With a specified subject ID defined by a few images, VCD reinforces the
identity information extraction and injects frame-wise correlation at the
initialization stage for stable video outputs with identity preserved to a
large extent. To achieve this, we propose three novel components that are
essential for high-quality ID preservation: 1) an ID module trained with the
cropped identity by prompt-to-segmentation to disentangle the ID information
and the background noise for more accurate ID token learning; 2) a
text-to-video (T2V) VCD module with 3D Gaussian Noise Prior for better
inter-frame consistency and 3) video-to-video (V2V) Face VCD and Tiled VCD
modules to deblur the face and upscale the video for higher resolution.
Despite its simplicity, we conducted extensive experiments to verify that VCD
is able to generate stable and high-quality videos with better ID over the
selected strong baselines. Besides, due to the transferability of the ID
module, VCD is also working well with finetuned text-to-image models available
publically, further improving its usability. The codes are available at
https://github.com/Zhen-Dong/Magic-Me.Summary
AI-Generated Summary