AZÚCAR: Personalización de Video Dirigida por el Usuario de Forma Cero Disparos

Resumen

Presentamos SUGAR, un método de cero disparos para la personalización de videos dirigida por el sujeto. Dada una imagen de entrada, SUGAR es capaz de generar videos para el sujeto contenido en la imagen y alinear la generación con atributos visuales arbitrarios como estilo y movimiento especificados por texto de entrada del usuario. A diferencia de métodos anteriores, que requieren ajustes finos en tiempo de prueba o no logran generar videos alineados con texto, SUGAR logra resultados superiores sin necesidad de costos adicionales en tiempo de prueba. Para habilitar la capacidad de cero disparos, introducimos un pipeline escalable para construir un conjunto de datos sintético diseñado específicamente para la personalización dirigida por el sujeto, lo que resulta en 2.5 millones de tripletes imagen-video-texto. Además, proponemos varios métodos para mejorar nuestro modelo, incluidos diseños de atención especial, estrategias de entrenamiento mejoradas y un algoritmo de muestreo refinado. Se realizan experimentos extensos. En comparación con métodos anteriores, SUGAR logra resultados de vanguardia en preservación de identidad, dinámica de video y alineación de video-texto para la personalización de videos dirigida por el sujeto, demostrando la efectividad de nuestro método propuesto.

English

We present SUGAR, a zero-shot method for subject-driven video customization. Given an input image, SUGAR is capable of generating videos for the subject contained in the image and aligning the generation with arbitrary visual attributes such as style and motion specified by user-input text. Unlike previous methods, which require test-time fine-tuning or fail to generate text-aligned videos, SUGAR achieves superior results without the need for extra cost at test-time. To enable zero-shot capability, we introduce a scalable pipeline to construct synthetic dataset which is specifically designed for subject-driven customization, leading to 2.5 millions of image-video-text triplets. Additionally, we propose several methods to enhance our model, including special attention designs, improved training strategies, and a refined sampling algorithm. Extensive experiments are conducted. Compared to previous methods, SUGAR achieves state-of-the-art results in identity preservation, video dynamics, and video-text alignment for subject-driven video customization, demonstrating the effectiveness of our proposed method.

AZÚCAR: Personalización de Video Dirigida por el Usuario de Forma Cero Disparos

SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner

Resumen

Support