Gen-L-Video: Генерация длинных видео из нескольких текстовых описаний через временное совместное удаление шума
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising
May 29, 2023
Авторы: Fu-Yun Wang, Wenshuo Chen, Guanglu Song, Han-Jia Ye, Yu Liu, Hongsheng Li
cs.AI
Аннотация
Используя крупномасштабные наборы данных изображений и текстов, а также достижения в области диффузионных моделей, текстово-управляемые генеративные модели добились значительных успехов в области генерации и редактирования изображений. В данном исследовании изучается возможность расширения текстово-управляемых способностей для генерации и редактирования длинных видео с множественными текстовыми условиями. Современные методы генерации и редактирования видео, хотя и инновационные, часто ограничиваются крайне короткими видео (обычно менее 24 кадров) и одним текстовым условием. Эти ограничения существенно сужают их применимость, учитывая, что реальные видео обычно состоят из нескольких сегментов, каждый из которых несет различную семантическую информацию. Для решения этой задачи мы представляем новую парадигму под названием Gen-L-Video, способную расширить возможности готовых моделей диффузии для генерации и редактирования видео, состоящих из сотен кадров с разнообразными семантическими сегментами, без необходимости дополнительного обучения, при этом сохраняя согласованность контента. Мы реализовали три основных метода текстово-управляемой генерации и редактирования видео и расширили их для работы с более длинными видео, насыщенными различными семантическими сегментами, с использованием нашей предложенной парадигмы. Результаты экспериментов показывают, что наш подход значительно расширяет генеративные и редакционные возможности моделей диффузии видео, открывая новые перспективы для будущих исследований и приложений. Код доступен по адресу https://github.com/G-U-N/Gen-L-Video.
English
Leveraging large-scale image-text datasets and advancements in diffusion
models, text-driven generative models have made remarkable strides in the field
of image generation and editing. This study explores the potential of extending
the text-driven ability to the generation and editing of multi-text conditioned
long videos. Current methodologies for video generation and editing, while
innovative, are often confined to extremely short videos (typically less than
24 frames) and are limited to a single text condition. These constraints
significantly limit their applications given that real-world videos usually
consist of multiple segments, each bearing different semantic information. To
address this challenge, we introduce a novel paradigm dubbed as Gen-L-Video,
capable of extending off-the-shelf short video diffusion models for generating
and editing videos comprising hundreds of frames with diverse semantic segments
without introducing additional training, all while preserving content
consistency. We have implemented three mainstream text-driven video generation
and editing methodologies and extended them to accommodate longer videos imbued
with a variety of semantic segments with our proposed paradigm. Our
experimental outcomes reveal that our approach significantly broadens the
generative and editing capabilities of video diffusion models, offering new
possibilities for future research and applications. The code is available at
https://github.com/G-U-N/Gen-L-Video.