SUGAR: Пользовательская настройка видео на основе субъекта в нулевом режиме обучения

Аннотация

Мы представляем SUGAR, метод нулевого обучения для настраиваемого видео, управляемого объектом. Получив входное изображение, SUGAR способен генерировать видео для объекта, содержащегося на изображении, и выравнивать генерацию с произвольными визуальными атрибутами, такими как стиль и движение, указанные пользователем в тексте. В отличие от предыдущих методов, требующих настройки во время тестирования или не способных генерировать видео, выровненные по тексту, SUGAR достигает превосходных результатов без необходимости дополнительных затрат во время тестирования. Для обеспечения возможности нулевого обучения мы представляем масштабируемую платформу для создания синтетического набора данных, специально разработанного для настраиваемого видео, управляемого объектом, включающего 2,5 миллиона троек изображение-видео-текст. Кроме того, мы предлагаем несколько методов для улучшения нашей модели, включая специальные конструкции внимания, улучшенные стратегии обучения и уточненный алгоритм выборки. Проведены обширные эксперименты. По сравнению с предыдущими методами, SUGAR достигает передовых результатов в сохранении идентичности, динамике видео и выравнивании видео-текст для настраиваемого видео, управляемого объектом, демонстрируя эффективность нашего предложенного метода.

English

We present SUGAR, a zero-shot method for subject-driven video customization. Given an input image, SUGAR is capable of generating videos for the subject contained in the image and aligning the generation with arbitrary visual attributes such as style and motion specified by user-input text. Unlike previous methods, which require test-time fine-tuning or fail to generate text-aligned videos, SUGAR achieves superior results without the need for extra cost at test-time. To enable zero-shot capability, we introduce a scalable pipeline to construct synthetic dataset which is specifically designed for subject-driven customization, leading to 2.5 millions of image-video-text triplets. Additionally, we propose several methods to enhance our model, including special attention designs, improved training strategies, and a refined sampling algorithm. Extensive experiments are conducted. Compared to previous methods, SUGAR achieves state-of-the-art results in identity preservation, video dynamics, and video-text alignment for subject-driven video customization, demonstrating the effectiveness of our proposed method.

SUGAR: Пользовательская настройка видео на основе субъекта в нулевом режиме обучения

SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner

Аннотация

Support