SUGAR: Пользовательская настройка видео на основе субъекта в нулевом режиме обучения
SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner
December 13, 2024
Авторы: Yufan Zhou, Ruiyi Zhang, Jiuxiang Gu, Nanxuan Zhao, Jing Shi, Tong Sun
cs.AI
Аннотация
Мы представляем SUGAR, метод нулевого обучения для настраиваемого видео, управляемого объектом.
Получив входное изображение, SUGAR способен генерировать видео для объекта,
содержащегося на изображении, и выравнивать генерацию с произвольными визуальными
атрибутами, такими как стиль и движение, указанные пользователем в тексте. В отличие от
предыдущих методов, требующих настройки во время тестирования или не способных генерировать
видео, выровненные по тексту, SUGAR достигает превосходных результатов без необходимости
дополнительных затрат во время тестирования. Для обеспечения возможности нулевого обучения мы представляем масштабируемую
платформу для создания синтетического набора данных, специально разработанного для
настраиваемого видео, управляемого объектом, включающего 2,5 миллиона троек изображение-видео-текст.
Кроме того, мы предлагаем несколько методов для улучшения нашей модели,
включая специальные конструкции внимания, улучшенные стратегии обучения и
уточненный алгоритм выборки. Проведены обширные эксперименты. По сравнению с
предыдущими методами, SUGAR достигает передовых результатов в сохранении идентичности,
динамике видео и выравнивании видео-текст для настраиваемого видео, управляемого объектом,
демонстрируя эффективность нашего предложенного метода.
English
We present SUGAR, a zero-shot method for subject-driven video customization.
Given an input image, SUGAR is capable of generating videos for the subject
contained in the image and aligning the generation with arbitrary visual
attributes such as style and motion specified by user-input text. Unlike
previous methods, which require test-time fine-tuning or fail to generate
text-aligned videos, SUGAR achieves superior results without the need for extra
cost at test-time. To enable zero-shot capability, we introduce a scalable
pipeline to construct synthetic dataset which is specifically designed for
subject-driven customization, leading to 2.5 millions of image-video-text
triplets. Additionally, we propose several methods to enhance our model,
including special attention designs, improved training strategies, and a
refined sampling algorithm. Extensive experiments are conducted. Compared to
previous methods, SUGAR achieves state-of-the-art results in identity
preservation, video dynamics, and video-text alignment for subject-driven video
customization, demonstrating the effectiveness of our proposed method.Summary
AI-Generated Summary