VideoDrafter: Генерация многокадрового видео с согласованным содержанием с использованием языковых моделей
VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM
January 2, 2024
Авторы: Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
cs.AI
Аннотация
Недавние инновации и прорывы в области диффузионных моделей значительно расширили возможности генерации высококачественных видео по заданным запросам. Большинство существующих работ сосредоточено на сценариях с одной сценой, где происходит только одно событие в едином фоне. Однако расширение до генерации многосценовых видео является нетривиальной задачей и требует грамотного управления логикой между сценами при сохранении визуальной согласованности ключевого контента. В данной статье мы предлагаем новую структуру, названную VideoDrafter, для генерации многосценовых видео с сохранением контентной согласованности. Технически VideoDrafter использует большие языковые модели (LLM) для преобразования входного запроса в детализированный многосценовый сценарий, который извлекает выгоду из логических знаний, усвоенных LLM. Сценарий для каждой сцены включает описание события, сущности переднего плана/фона, а также движение камеры. VideoDrafter идентифицирует общие сущности по всему сценарию и запрашивает у LLM детализацию каждой сущности. Полученное описание сущности затем передается в текстово-изобразительную модель для генерации эталонного изображения для каждой сущности. В итоге VideoDrafter создает многосценовое видео, генерируя каждую сцену с помощью диффузионного процесса, который учитывает эталонные изображения, описательный запрос события и движение камеры. Диффузионная модель использует эталонные изображения в качестве условия и выравнивания для усиления контентной согласованности многосценовых видео. Многочисленные эксперименты демонстрируют, что VideoDrafter превосходит современные модели генерации видео по визуальному качеству, контентной согласованности и предпочтениям пользователей.
English
The recent innovations and breakthroughs in diffusion models have
significantly expanded the possibilities of generating high-quality videos for
the given prompts. Most existing works tackle the single-scene scenario with
only one video event occurring in a single background. Extending to generate
multi-scene videos nevertheless is not trivial and necessitates to nicely
manage the logic in between while preserving the consistent visual appearance
of key content across video scenes. In this paper, we propose a novel
framework, namely VideoDrafter, for content-consistent multi-scene video
generation. Technically, VideoDrafter leverages Large Language Models (LLM) to
convert the input prompt into comprehensive multi-scene script that benefits
from the logical knowledge learnt by LLM. The script for each scene includes a
prompt describing the event, the foreground/background entities, as well as
camera movement. VideoDrafter identifies the common entities throughout the
script and asks LLM to detail each entity. The resultant entity description is
then fed into a text-to-image model to generate a reference image for each
entity. Finally, VideoDrafter outputs a multi-scene video by generating each
scene video via a diffusion process that takes the reference images, the
descriptive prompt of the event and camera movement into account. The diffusion
model incorporates the reference images as the condition and alignment to
strengthen the content consistency of multi-scene videos. Extensive experiments
demonstrate that VideoDrafter outperforms the SOTA video generation models in
terms of visual quality, content consistency, and user preference.