AZÚCAR: Personalización de Video Dirigida por el Usuario de Forma Cero Disparos
SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner
December 13, 2024
Autores: Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Nanxuan Zhao, Jing Shi, Tong Sun
cs.AI
Resumen
Presentamos SUGAR, un método de cero disparos para la personalización de videos dirigida por el sujeto. Dada una imagen de entrada, SUGAR es capaz de generar videos para el sujeto contenido en la imagen y alinear la generación con atributos visuales arbitrarios como estilo y movimiento especificados por texto de entrada del usuario. A diferencia de métodos anteriores, que requieren ajustes finos en tiempo de prueba o no logran generar videos alineados con texto, SUGAR logra resultados superiores sin necesidad de costos adicionales en tiempo de prueba. Para habilitar la capacidad de cero disparos, introducimos un pipeline escalable para construir un conjunto de datos sintético diseñado específicamente para la personalización dirigida por el sujeto, lo que resulta en 2.5 millones de tripletes imagen-video-texto. Además, proponemos varios métodos para mejorar nuestro modelo, incluidos diseños de atención especial, estrategias de entrenamiento mejoradas y un algoritmo de muestreo refinado. Se realizan experimentos extensos. En comparación con métodos anteriores, SUGAR logra resultados de vanguardia en preservación de identidad, dinámica de video y alineación de video-texto para la personalización de videos dirigida por el sujeto, demostrando la efectividad de nuestro método propuesto.
English
We present SUGAR, a zero-shot method for subject-driven video customization.
Given an input image, SUGAR is capable of generating videos for the subject
contained in the image and aligning the generation with arbitrary visual
attributes such as style and motion specified by user-input text. Unlike
previous methods, which require test-time fine-tuning or fail to generate
text-aligned videos, SUGAR achieves superior results without the need for extra
cost at test-time. To enable zero-shot capability, we introduce a scalable
pipeline to construct synthetic dataset which is specifically designed for
subject-driven customization, leading to 2.5 millions of image-video-text
triplets. Additionally, we propose several methods to enhance our model,
including special attention designs, improved training strategies, and a
refined sampling algorithm. Extensive experiments are conducted. Compared to
previous methods, SUGAR achieves state-of-the-art results in identity
preservation, video dynamics, and video-text alignment for subject-driven video
customization, demonstrating the effectiveness of our proposed method.Summary
AI-Generated Summary