VideoDirectorGPT: Konsistente Mehrszenerien-Videogenerierung durch LLM-gestützte Planung
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
September 26, 2023
Autoren: Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
cs.AI
Zusammenfassung
Obwohl neuere Text-zu-Video (T2V)-Generierungsmethoden erhebliche Fortschritte gemacht haben, konzentrieren sich die meisten dieser Arbeiten auf die Erstellung kurzer Videoclips eines einzelnen Ereignisses mit einem einzigen Hintergrund (d.h. Einzelszenen-Videos). Gleichzeitig haben aktuelle große Sprachmodelle (LLMs) ihre Fähigkeit unter Beweis gestellt, Layouts und Programme zu generieren, um nachgelagerte visuelle Module wie Bildgenerierungsmodelle zu steuern. Dies wirft eine wichtige Frage auf: Können wir das in diesen LLMs eingebettete Wissen für die zeitlich konsistente Erzeugung langer Videos nutzen? In diesem Artikel schlagen wir VideoDirectorGPT vor, ein neuartiges Framework für die konsistente Generierung von Mehrszenen-Videos, das das Wissen der LLMs für die Videocontent-Planung und die fundierte Videogenerierung nutzt. Konkret erweitern wir bei einem einzelnen Textprompt zunächst unser Video-Planer-LLM (GPT-4), um daraus einen „Video-Plan“ zu erstellen, der die Szenenbeschreibungen, die Entitäten mit ihren jeweiligen Layouts, den Hintergrund für jede Szene sowie die Konsistenzgruppierungen der Entitäten und Hintergründe umfasst. Anschließend hat unser Videogenerator, Layout2Vid, basierend auf der Ausgabe des Video-Planers, explizite Kontrolle über die räumlichen Layouts und kann die zeitliche Konsistenz von Entitäten/Hintergründen über Szenen hinweg aufrechterhalten, obwohl er nur mit Bild-Level-Annotationen trainiert wurde. Unsere Experimente zeigen, dass das VideoDirectorGPT-Framework die Layout- und Bewegungssteuerung sowohl bei der Einzel- als auch bei der Mehrszenen-Videogenerierung erheblich verbessert und Mehrszenen-Videos mit visueller Konsistenz über Szenen hinweg erzeugen kann, während es eine wettbewerbsfähige Leistung mit den State-of-the-Art-Methoden (SOTAs) in der offenen Einzelszenen-T2V-Generierung erreicht. Wir zeigen auch, dass unser Framework die Stärke der Layoutführung dynamisch steuern kann und Videos mit benutzerbereitgestellten Bildern generieren kann. Wir hoffen, dass unser Framework zukünftige Arbeiten dazu inspirieren kann, die Planungsfähigkeit von LLMs besser in die konsistente Erzeugung langer Videos zu integrieren.
English
Although recent text-to-video (T2V) generation methods have seen significant
advancements, most of these works focus on producing short video clips of a
single event with a single background (i.e., single-scene videos). Meanwhile,
recent large language models (LLMs) have demonstrated their capability in
generating layouts and programs to control downstream visual modules such as
image generation models. This raises an important question: can we leverage the
knowledge embedded in these LLMs for temporally consistent long video
generation? In this paper, we propose VideoDirectorGPT, a novel framework for
consistent multi-scene video generation that uses the knowledge of LLMs for
video content planning and grounded video generation. Specifically, given a
single text prompt, we first ask our video planner LLM (GPT-4) to expand it
into a 'video plan', which involves generating the scene descriptions, the
entities with their respective layouts, the background for each scene, and
consistency groupings of the entities and backgrounds. Next, guided by this
output from the video planner, our video generator, Layout2Vid, has explicit
control over spatial layouts and can maintain temporal consistency of
entities/backgrounds across scenes, while only trained with image-level
annotations. Our experiments demonstrate that VideoDirectorGPT framework
substantially improves layout and movement control in both single- and
multi-scene video generation and can generate multi-scene videos with visual
consistency across scenes, while achieving competitive performance with SOTAs
in open-domain single-scene T2V generation. We also demonstrate that our
framework can dynamically control the strength for layout guidance and can also
generate videos with user-provided images. We hope our framework can inspire
future work on better integrating the planning ability of LLMs into consistent
long video generation.