CustomVideo: Настройка генерации видео из текста с несколькими объектами
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects
January 18, 2024
Авторы: Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo Li
cs.AI
Аннотация
Персонализированная генерация видео по текстовым описаниям направлена на создание высококачественных видеороликов, управляемых текстовыми подсказками и ссылками на объекты. Существующие подходы, разработанные для работы с одним объектом, сталкиваются с трудностями при обработке нескольких объектов, что представляет собой более сложный и практический сценарий. В данной работе мы стремимся продвинуть персонализацию генерации видео по текстовым описаниям с учетом нескольких объектов. Мы предлагаем CustomVideo — новый фреймворк, способный генерировать видео с сохранением идентичности объектов под управлением нескольких субъектов. В частности, во-первых, мы стимулируем совместное появление нескольких объектов, объединяя их в одном изображении. Далее, на основе базовой модели диффузии для генерации видео по тексту, мы разрабатываем простую, но эффективную стратегию управления вниманием для разделения различных объектов в латентном пространстве модели диффузии. Кроме того, чтобы помочь модели сосредоточиться на конкретной области объекта, мы сегментируем объект из предоставленных эталонных изображений и предоставляем соответствующую маску объекта для обучения внимания. Также мы собираем набор данных для генерации видео по текстовым описаниям с несколькими объектами в качестве комплексного эталона, включающего 69 отдельных объектов и 57 значимых пар. Результаты обширных качественных, количественных исследований и пользовательских тестов демонстрируют превосходство нашего метода по сравнению с предыдущими передовыми подходами.
English
Customized text-to-video generation aims to generate high-quality videos
guided by text prompts and subject references. Current approaches designed for
single subjects suffer from tackling multiple subjects, which is a more
challenging and practical scenario. In this work, we aim to promote
multi-subject guided text-to-video customization. We propose CustomVideo, a
novel framework that can generate identity-preserving videos with the guidance
of multiple subjects. To be specific, firstly, we encourage the co-occurrence
of multiple subjects via composing them in a single image. Further, upon a
basic text-to-video diffusion model, we design a simple yet effective attention
control strategy to disentangle different subjects in the latent space of
diffusion model. Moreover, to help the model focus on the specific object area,
we segment the object from given reference images and provide a corresponding
object mask for attention learning. Also, we collect a multi-subject
text-to-video generation dataset as a comprehensive benchmark, with 69
individual subjects and 57 meaningful pairs. Extensive qualitative,
quantitative, and user study results demonstrate the superiority of our method,
compared with the previous state-of-the-art approaches.