ChatPaper.aiChatPaper

VideoDrafter: Generación de Videos Multi-Escena con Consistencia de Contenido mediante LLM

VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM

January 2, 2024
Autores: Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
cs.AI

Resumen

Las recientes innovaciones y avances en los modelos de difusión han ampliado significativamente las posibilidades de generar videos de alta calidad a partir de indicaciones dadas. La mayoría de los trabajos existentes abordan el escenario de una sola escena, donde solo ocurre un evento en un único fondo. Sin embargo, extender la generación a videos de múltiples escenas no es trivial y requiere gestionar adecuadamente la lógica entre ellas, manteniendo al mismo tiempo una apariencia visual consistente del contenido clave a lo largo de las escenas. En este artículo, proponemos un marco novedoso, denominado VideoDrafter, para la generación de videos de múltiples escenas con consistencia de contenido. Técnicamente, VideoDrafter aprovecha los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) para convertir la indicación de entrada en un guion detallado de múltiples escenas que se beneficia del conocimiento lógico aprendido por el LLM. El guion para cada escena incluye una descripción del evento, las entidades en primer plano/fondo, así como el movimiento de la cámara. VideoDrafter identifica las entidades comunes a lo largo del guion y solicita al LLM que detalle cada una de ellas. La descripción resultante de cada entidad se introduce en un modelo de texto a imagen para generar una imagen de referencia para cada entidad. Finalmente, VideoDrafter produce un video de múltiples escenas generando cada escena mediante un proceso de difusión que tiene en cuenta las imágenes de referencia, la descripción del evento y el movimiento de la cámara. El modelo de difusión incorpora las imágenes de referencia como condición y alineación para reforzar la consistencia de contenido en los videos de múltiples escenas. Experimentos exhaustivos demuestran que VideoDrafter supera a los modelos de generación de video más avanzados (SOTA) en términos de calidad visual, consistencia de contenido y preferencia del usuario.
English
The recent innovations and breakthroughs in diffusion models have significantly expanded the possibilities of generating high-quality videos for the given prompts. Most existing works tackle the single-scene scenario with only one video event occurring in a single background. Extending to generate multi-scene videos nevertheless is not trivial and necessitates to nicely manage the logic in between while preserving the consistent visual appearance of key content across video scenes. In this paper, we propose a novel framework, namely VideoDrafter, for content-consistent multi-scene video generation. Technically, VideoDrafter leverages Large Language Models (LLM) to convert the input prompt into comprehensive multi-scene script that benefits from the logical knowledge learnt by LLM. The script for each scene includes a prompt describing the event, the foreground/background entities, as well as camera movement. VideoDrafter identifies the common entities throughout the script and asks LLM to detail each entity. The resultant entity description is then fed into a text-to-image model to generate a reference image for each entity. Finally, VideoDrafter outputs a multi-scene video by generating each scene video via a diffusion process that takes the reference images, the descriptive prompt of the event and camera movement into account. The diffusion model incorporates the reference images as the condition and alignment to strengthen the content consistency of multi-scene videos. Extensive experiments demonstrate that VideoDrafter outperforms the SOTA video generation models in terms of visual quality, content consistency, and user preference.
PDF222December 15, 2024