ChatPaper.aiChatPaper

VideoDirectorGPT: Generazione Consistente di Video Multi-scena tramite Pianificazione Guidata da LLM

VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning

September 26, 2023
Autori: Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
cs.AI

Abstract

Sebbene i recenti metodi di generazione testo-video (T2V) abbiano registrato progressi significativi, la maggior parte di questi lavori si concentra sulla produzione di brevi clip video di un singolo evento con un singolo sfondo (cioè video a scena singola). Nel frattempo, i recenti modelli linguistici di grandi dimensioni (LLM) hanno dimostrato la loro capacità di generare layout e programmi per controllare moduli visivi downstream come i modelli di generazione di immagini. Ciò solleva una domanda importante: possiamo sfruttare la conoscenza incorporata in questi LLM per la generazione di video lunghi temporalmente coerenti? In questo articolo, proponiamo VideoDirectorGPT, un nuovo framework per la generazione coerente di video multi-scena che utilizza la conoscenza degli LLM per la pianificazione del contenuto video e la generazione di video contestualizzati. Nello specifico, dato un singolo prompt di testo, chiediamo prima al nostro LLM pianificatore video (GPT-4) di espanderlo in un "piano video", che prevede la generazione delle descrizioni delle scene, delle entità con i rispettivi layout, dello sfondo per ogni scena e dei raggruppamenti di coerenza delle entità e degli sfondi. Successivamente, guidato da questo output del pianificatore video, il nostro generatore video, Layout2Vid, ha un controllo esplicito sui layout spaziali e può mantenere la coerenza temporale delle entità/sfondi tra le scene, pur essendo addestrato solo con annotazioni a livello di immagine. I nostri esperimenti dimostrano che il framework VideoDirectorGPT migliora sostanzialmente il controllo del layout e del movimento sia nella generazione di video a scena singola che multi-scena e può generare video multi-scena con coerenza visiva tra le scene, raggiungendo prestazioni competitive con gli SOTA nella generazione T2V a scena singola in dominio aperto. Dimostriamo inoltre che il nostro framework può controllare dinamicamente l'intensità della guida del layout e può anche generare video con immagini fornite dall'utente. Speriamo che il nostro framework possa ispirare futuri lavori per una migliore integrazione della capacità di pianificazione degli LLM nella generazione coerente di video lunghi.
English
Although recent text-to-video (T2V) generation methods have seen significant advancements, most of these works focus on producing short video clips of a single event with a single background (i.e., single-scene videos). Meanwhile, recent large language models (LLMs) have demonstrated their capability in generating layouts and programs to control downstream visual modules such as image generation models. This raises an important question: can we leverage the knowledge embedded in these LLMs for temporally consistent long video generation? In this paper, we propose VideoDirectorGPT, a novel framework for consistent multi-scene video generation that uses the knowledge of LLMs for video content planning and grounded video generation. Specifically, given a single text prompt, we first ask our video planner LLM (GPT-4) to expand it into a 'video plan', which involves generating the scene descriptions, the entities with their respective layouts, the background for each scene, and consistency groupings of the entities and backgrounds. Next, guided by this output from the video planner, our video generator, Layout2Vid, has explicit control over spatial layouts and can maintain temporal consistency of entities/backgrounds across scenes, while only trained with image-level annotations. Our experiments demonstrate that VideoDirectorGPT framework substantially improves layout and movement control in both single- and multi-scene video generation and can generate multi-scene videos with visual consistency across scenes, while achieving competitive performance with SOTAs in open-domain single-scene T2V generation. We also demonstrate that our framework can dynamically control the strength for layout guidance and can also generate videos with user-provided images. We hope our framework can inspire future work on better integrating the planning ability of LLMs into consistent long video generation.
PDF345February 8, 2026