VSTAR: Генеративное временное моделирование для синтеза длинных динамических видео
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis
March 20, 2024
Авторы: Yumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva
cs.AI
Аннотация
Несмотря на огромные успехи в области синтеза текста в видео (T2V), модели диффузии T2V с открытым исходным кодом испытывают трудности в создании более длинных видеороликов с динамически изменяющимся и развивающимся контентом. Они часто синтезируют псевдо-статические видео, игнорируя необходимые визуальные изменения со временем, предполагаемые в текстовой подсказке. В то же время масштабирование этих моделей для возможности создания более длинного и динамичного видеосинтеза часто остается вычислительно неразрешимым. Для решения этой проблемы мы представляем концепцию Генеративного Временного Ухода (GTN), где мы стремимся изменять генеративный процесс на лету во время вывода, чтобы улучшить контроль над временной динамикой и обеспечить создание более длинных видеороликов. Мы предлагаем метод для GTN, названный VSTAR, который состоит из двух ключевых компонентов: 1) Подсказка Синопсиса Видео (VSP) - автоматическое создание синопсиса видео на основе оригинальной одиночной подсказки с использованием LLMs, который обеспечивает точное текстовое руководство к различным визуальным состояниям более длинных видеороликов, и 2) Регуляризация Временного Внимания (TAR) - техника регуляризации для уточнения временных блоков внимания предварительно обученных моделей диффузии T2V, которая обеспечивает контроль над динамикой видео. Мы экспериментально демонстрируем превосходство предложенного подхода в создании более длинных, визуально привлекательных видеороликов по сравнению с существующими моделями T2V с открытым исходным кодом. Мы также анализируем карты временного внимания, реализованные с использованием и без использования VSTAR, демонстрируя важность применения нашего метода для уменьшения игнорирования желаемых визуальных изменений со временем.
English
Despite tremendous progress in the field of text-to-video (T2V) synthesis,
open-sourced T2V diffusion models struggle to generate longer videos with
dynamically varying and evolving content. They tend to synthesize quasi-static
videos, ignoring the necessary visual change-over-time implied in the text
prompt. At the same time, scaling these models to enable longer, more dynamic
video synthesis often remains computationally intractable. To address this
challenge, we introduce the concept of Generative Temporal Nursing (GTN), where
we aim to alter the generative process on the fly during inference to improve
control over the temporal dynamics and enable generation of longer videos. We
propose a method for GTN, dubbed VSTAR, which consists of two key ingredients:
1) Video Synopsis Prompting (VSP) - automatic generation of a video synopsis
based on the original single prompt leveraging LLMs, which gives accurate
textual guidance to different visual states of longer videos, and 2) Temporal
Attention Regularization (TAR) - a regularization technique to refine the
temporal attention units of the pre-trained T2V diffusion models, which enables
control over the video dynamics. We experimentally showcase the superiority of
the proposed approach in generating longer, visually appealing videos over
existing open-sourced T2V models. We additionally analyze the temporal
attention maps realized with and without VSTAR, demonstrating the importance of
applying our method to mitigate neglect of the desired visual change over time.Summary
AI-Generated Summary