VideoDrafter: Inhaltskonsistente Multiszenen-Videogenerierung mit LLM

papers.abstract

Die jüngsten Innovationen und Durchbrüche in Diffusionsmodellen haben die Möglichkeiten zur Erzeugung hochwertiger Videos für gegebene Eingabeaufforderungen erheblich erweitert. Die meisten bestehenden Arbeiten befassen sich mit dem Szenario einer einzelnen Szene, in der nur ein Videovorgang in einem einzigen Hintergrund stattfindet. Die Erweiterung zur Generierung von Videos mit mehreren Szenen ist jedoch nicht trivial und erfordert eine geschickte Handhabung der Logik dazwischen, während gleichzeitig das konsistente visuelle Erscheinungsbild der Schlüsselinhalte über die Videoszenen hinweg beibehalten wird. In diesem Artikel schlagen wir ein neuartiges Framework namens VideoDrafter für die inhaltskonsistente Generierung von Videos mit mehreren Szenen vor. Technisch gesehen nutzt VideoDrafter Large Language Models (LLM), um die Eingabeaufforderung in ein umfassendes Multi-Szenen-Skript umzuwandeln, das von der logischen Wissensbasis des LLM profitiert. Das Skript für jede Szene umfasst eine Aufforderung zur Beschreibung des Ereignisses, der Vordergrund-/Hintergrund-Entitäten sowie der Kamerabewegung. VideoDrafter identifiziert die gemeinsamen Entitäten im gesamten Skript und bittet das LLM, jede Entität detailliert zu beschreiben. Die resultierende Entitätsbeschreibung wird dann in ein Text-zu-Bild-Modell eingespeist, um ein Referenzbild für jede Entität zu generieren. Schließlich gibt VideoDrafter ein Video mit mehreren Szenen aus, indem jede Szenenvideo durch einen Diffusionsprozess erzeugt wird, der die Referenzbilder, die beschreibende Aufforderung des Ereignisses und die Kamerabewegung berücksichtigt. Das Diffusionsmodell integriert die Referenzbilder als Bedingung und Ausrichtung, um die Inhaltskonsistenz der Videos mit mehreren Szenen zu stärken. Umfangreiche Experimente zeigen, dass VideoDrafter die aktuellsten Videogenerierungsmodelle in Bezug auf visuelle Qualität, Inhaltskonsistenz und Benutzerpräferenz übertrifft.

English

The recent innovations and breakthroughs in diffusion models have significantly expanded the possibilities of generating high-quality videos for the given prompts. Most existing works tackle the single-scene scenario with only one video event occurring in a single background. Extending to generate multi-scene videos nevertheless is not trivial and necessitates to nicely manage the logic in between while preserving the consistent visual appearance of key content across video scenes. In this paper, we propose a novel framework, namely VideoDrafter, for content-consistent multi-scene video generation. Technically, VideoDrafter leverages Large Language Models (LLM) to convert the input prompt into comprehensive multi-scene script that benefits from the logical knowledge learnt by LLM. The script for each scene includes a prompt describing the event, the foreground/background entities, as well as camera movement. VideoDrafter identifies the common entities throughout the script and asks LLM to detail each entity. The resultant entity description is then fed into a text-to-image model to generate a reference image for each entity. Finally, VideoDrafter outputs a multi-scene video by generating each scene video via a diffusion process that takes the reference images, the descriptive prompt of the event and camera movement into account. The diffusion model incorporates the reference images as the condition and alignment to strengthen the content consistency of multi-scene videos. Extensive experiments demonstrate that VideoDrafter outperforms the SOTA video generation models in terms of visual quality, content consistency, and user preference.

VideoDrafter: Inhaltskonsistente Multiszenen-Videogenerierung mit LLM

VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM

papers.abstract

Support