ChatPaper.aiChatPaper

VideoDirectorGPT: Konsistente Mehrszenerien-Videogenerierung durch LLM-gestützte Planung

VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning

September 26, 2023
Autoren: Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
cs.AI

Zusammenfassung

Obwohl neuere Text-zu-Video (T2V)-Generierungsmethoden erhebliche Fortschritte gemacht haben, konzentrieren sich die meisten dieser Arbeiten auf die Erstellung kurzer Videoclips eines einzelnen Ereignisses mit einem einzigen Hintergrund (d.h. Einzelszenen-Videos). Gleichzeitig haben aktuelle große Sprachmodelle (LLMs) ihre Fähigkeit unter Beweis gestellt, Layouts und Programme zu generieren, um nachgelagerte visuelle Module wie Bildgenerierungsmodelle zu steuern. Dies wirft eine wichtige Frage auf: Können wir das in diesen LLMs eingebettete Wissen für die zeitlich konsistente Erzeugung langer Videos nutzen? In diesem Artikel schlagen wir VideoDirectorGPT vor, ein neuartiges Framework für die konsistente Generierung von Mehrszenen-Videos, das das Wissen der LLMs für die Videocontent-Planung und die fundierte Videogenerierung nutzt. Konkret erweitern wir bei einem einzelnen Textprompt zunächst unser Video-Planer-LLM (GPT-4), um daraus einen „Video-Plan“ zu erstellen, der die Szenenbeschreibungen, die Entitäten mit ihren jeweiligen Layouts, den Hintergrund für jede Szene sowie die Konsistenzgruppierungen der Entitäten und Hintergründe umfasst. Anschließend hat unser Videogenerator, Layout2Vid, basierend auf der Ausgabe des Video-Planers, explizite Kontrolle über die räumlichen Layouts und kann die zeitliche Konsistenz von Entitäten/Hintergründen über Szenen hinweg aufrechterhalten, obwohl er nur mit Bild-Level-Annotationen trainiert wurde. Unsere Experimente zeigen, dass das VideoDirectorGPT-Framework die Layout- und Bewegungssteuerung sowohl bei der Einzel- als auch bei der Mehrszenen-Videogenerierung erheblich verbessert und Mehrszenen-Videos mit visueller Konsistenz über Szenen hinweg erzeugen kann, während es eine wettbewerbsfähige Leistung mit den State-of-the-Art-Methoden (SOTAs) in der offenen Einzelszenen-T2V-Generierung erreicht. Wir zeigen auch, dass unser Framework die Stärke der Layoutführung dynamisch steuern kann und Videos mit benutzerbereitgestellten Bildern generieren kann. Wir hoffen, dass unser Framework zukünftige Arbeiten dazu inspirieren kann, die Planungsfähigkeit von LLMs besser in die konsistente Erzeugung langer Videos zu integrieren.
English
Although recent text-to-video (T2V) generation methods have seen significant advancements, most of these works focus on producing short video clips of a single event with a single background (i.e., single-scene videos). Meanwhile, recent large language models (LLMs) have demonstrated their capability in generating layouts and programs to control downstream visual modules such as image generation models. This raises an important question: can we leverage the knowledge embedded in these LLMs for temporally consistent long video generation? In this paper, we propose VideoDirectorGPT, a novel framework for consistent multi-scene video generation that uses the knowledge of LLMs for video content planning and grounded video generation. Specifically, given a single text prompt, we first ask our video planner LLM (GPT-4) to expand it into a 'video plan', which involves generating the scene descriptions, the entities with their respective layouts, the background for each scene, and consistency groupings of the entities and backgrounds. Next, guided by this output from the video planner, our video generator, Layout2Vid, has explicit control over spatial layouts and can maintain temporal consistency of entities/backgrounds across scenes, while only trained with image-level annotations. Our experiments demonstrate that VideoDirectorGPT framework substantially improves layout and movement control in both single- and multi-scene video generation and can generate multi-scene videos with visual consistency across scenes, while achieving competitive performance with SOTAs in open-domain single-scene T2V generation. We also demonstrate that our framework can dynamically control the strength for layout guidance and can also generate videos with user-provided images. We hope our framework can inspire future work on better integrating the planning ability of LLMs into consistent long video generation.
PDF334December 15, 2024