VideoDirectorGPT: Согласованная генерация многокадрового видео с помощью планирования, управляемого языковой моделью
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
September 26, 2023
Авторы: Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
cs.AI
Аннотация
Хотя недавние методы генерации видео из текста (T2V) достигли значительного прогресса, большинство этих работ сосредоточено на создании коротких видеоклипов, изображающих одно событие с одним фоном (т.е. видео с одной сценой). В то же время современные крупные языковые модели (LLM) продемонстрировали свою способность генерировать макеты и программы для управления визуальными модулями, такими как модели генерации изображений. Это поднимает важный вопрос: можем ли мы использовать знания, заложенные в этих LLM, для генерации длинных видео с временной согласованностью? В данной статье мы предлагаем VideoDirectorGPT, новый фреймворк для согласованной генерации многосценовых видео, который использует знания LLM для планирования контента видео и обоснованной генерации видео. В частности, для заданного текстового запроса мы сначала просим нашу LLM-планировщик видео (GPT-4) расширить его в «план видео», который включает генерацию описаний сцен, объектов с их макетами, фона для каждой сцены и группировок объектов и фонов для обеспечения согласованности. Затем, руководствуясь этим планом, наш генератор видео, Layout2Vid, получает явный контроль над пространственными макетами и может поддерживать временную согласованность объектов/фонов между сценами, будучи обученным только на аннотациях уровня изображений. Наши эксперименты показывают, что фреймворк VideoDirectorGPT значительно улучшает контроль над макетами и движением как в односценовой, так и в многосценовой генерации видео, а также способен создавать многосценовые видео с визуальной согласованностью между сценами, достигая при этом конкурентоспособных результатов с современными методами (SOTA) в генерации односценовых видео из текста в открытой области. Мы также демонстрируем, что наш фреймворк может динамически контролировать силу руководства макетами и может генерировать видео с использованием изображений, предоставленных пользователем. Мы надеемся, что наш фреймворк вдохновит будущие исследования на лучшее интегрирование планирующих способностей LLM в генерацию согласованных длинных видео.
English
Although recent text-to-video (T2V) generation methods have seen significant
advancements, most of these works focus on producing short video clips of a
single event with a single background (i.e., single-scene videos). Meanwhile,
recent large language models (LLMs) have demonstrated their capability in
generating layouts and programs to control downstream visual modules such as
image generation models. This raises an important question: can we leverage the
knowledge embedded in these LLMs for temporally consistent long video
generation? In this paper, we propose VideoDirectorGPT, a novel framework for
consistent multi-scene video generation that uses the knowledge of LLMs for
video content planning and grounded video generation. Specifically, given a
single text prompt, we first ask our video planner LLM (GPT-4) to expand it
into a 'video plan', which involves generating the scene descriptions, the
entities with their respective layouts, the background for each scene, and
consistency groupings of the entities and backgrounds. Next, guided by this
output from the video planner, our video generator, Layout2Vid, has explicit
control over spatial layouts and can maintain temporal consistency of
entities/backgrounds across scenes, while only trained with image-level
annotations. Our experiments demonstrate that VideoDirectorGPT framework
substantially improves layout and movement control in both single- and
multi-scene video generation and can generate multi-scene videos with visual
consistency across scenes, while achieving competitive performance with SOTAs
in open-domain single-scene T2V generation. We also demonstrate that our
framework can dynamically control the strength for layout guidance and can also
generate videos with user-provided images. We hope our framework can inspire
future work on better integrating the planning ability of LLMs into consistent
long video generation.