VideoDrafter: Inhaltskonsistente Multiszenen-Videogenerierung mit LLM
VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM
January 2, 2024
Autoren: Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
cs.AI
Zusammenfassung
Die jüngsten Innovationen und Durchbrüche in Diffusionsmodellen haben die Möglichkeiten zur Erzeugung hochwertiger Videos für gegebene Eingabeaufforderungen erheblich erweitert. Die meisten bestehenden Arbeiten befassen sich mit dem Szenario einer einzelnen Szene, in der nur ein Videovorgang in einem einzigen Hintergrund stattfindet. Die Erweiterung zur Generierung von Videos mit mehreren Szenen ist jedoch nicht trivial und erfordert eine geschickte Handhabung der Logik dazwischen, während gleichzeitig das konsistente visuelle Erscheinungsbild der Schlüsselinhalte über die Videoszenen hinweg beibehalten wird. In diesem Artikel schlagen wir ein neuartiges Framework namens VideoDrafter für die inhaltskonsistente Generierung von Videos mit mehreren Szenen vor. Technisch gesehen nutzt VideoDrafter Large Language Models (LLM), um die Eingabeaufforderung in ein umfassendes Multi-Szenen-Skript umzuwandeln, das von der logischen Wissensbasis des LLM profitiert. Das Skript für jede Szene umfasst eine Aufforderung zur Beschreibung des Ereignisses, der Vordergrund-/Hintergrund-Entitäten sowie der Kamerabewegung. VideoDrafter identifiziert die gemeinsamen Entitäten im gesamten Skript und bittet das LLM, jede Entität detailliert zu beschreiben. Die resultierende Entitätsbeschreibung wird dann in ein Text-zu-Bild-Modell eingespeist, um ein Referenzbild für jede Entität zu generieren. Schließlich gibt VideoDrafter ein Video mit mehreren Szenen aus, indem jede Szenenvideo durch einen Diffusionsprozess erzeugt wird, der die Referenzbilder, die beschreibende Aufforderung des Ereignisses und die Kamerabewegung berücksichtigt. Das Diffusionsmodell integriert die Referenzbilder als Bedingung und Ausrichtung, um die Inhaltskonsistenz der Videos mit mehreren Szenen zu stärken. Umfangreiche Experimente zeigen, dass VideoDrafter die aktuellsten Videogenerierungsmodelle in Bezug auf visuelle Qualität, Inhaltskonsistenz und Benutzerpräferenz übertrifft.
English
The recent innovations and breakthroughs in diffusion models have
significantly expanded the possibilities of generating high-quality videos for
the given prompts. Most existing works tackle the single-scene scenario with
only one video event occurring in a single background. Extending to generate
multi-scene videos nevertheless is not trivial and necessitates to nicely
manage the logic in between while preserving the consistent visual appearance
of key content across video scenes. In this paper, we propose a novel
framework, namely VideoDrafter, for content-consistent multi-scene video
generation. Technically, VideoDrafter leverages Large Language Models (LLM) to
convert the input prompt into comprehensive multi-scene script that benefits
from the logical knowledge learnt by LLM. The script for each scene includes a
prompt describing the event, the foreground/background entities, as well as
camera movement. VideoDrafter identifies the common entities throughout the
script and asks LLM to detail each entity. The resultant entity description is
then fed into a text-to-image model to generate a reference image for each
entity. Finally, VideoDrafter outputs a multi-scene video by generating each
scene video via a diffusion process that takes the reference images, the
descriptive prompt of the event and camera movement into account. The diffusion
model incorporates the reference images as the condition and alignment to
strengthen the content consistency of multi-scene videos. Extensive experiments
demonstrate that VideoDrafter outperforms the SOTA video generation models in
terms of visual quality, content consistency, and user preference.