VideoDirectorGPT: Generación consistente de videos multi-escena mediante planificación guiada por LLM
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
September 26, 2023
Autores: Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
cs.AI
Resumen
Aunque los métodos recientes de generación de texto a video (T2V) han experimentado avances significativos, la mayoría de estos trabajos se centran en producir clips de video cortos de un solo evento con un único fondo (es decir, videos de escena única). Mientras tanto, los modelos de lenguaje grandes (LLMs) recientes han demostrado su capacidad para generar diseños y programas que controlan módulos visuales posteriores, como los modelos de generación de imágenes. Esto plantea una pregunta importante: ¿podemos aprovechar el conocimiento incrustado en estos LLMs para la generación de videos largos con consistencia temporal? En este artículo, proponemos VideoDirectorGPT, un marco novedoso para la generación de videos multi-escena consistentes que utiliza el conocimiento de los LLMs para la planificación de contenido de video y la generación de video fundamentada. Específicamente, dado un solo texto de entrada, primero solicitamos a nuestro LLM planificador de video (GPT-4) que lo expanda en un "plan de video", lo que implica generar las descripciones de las escenas, las entidades con sus respectivos diseños, el fondo para cada escena y las agrupaciones de consistencia de las entidades y fondos. Luego, guiado por esta salida del planificador de video, nuestro generador de video, Layout2Vid, tiene control explícito sobre los diseños espaciales y puede mantener la consistencia temporal de entidades/fondos entre escenas, aunque solo esté entrenado con anotaciones a nivel de imagen. Nuestros experimentos demuestran que el marco de VideoDirectorGPT mejora sustancialmente el control de diseño y movimiento tanto en la generación de videos de escena única como multi-escena, y puede generar videos multi-escena con consistencia visual entre escenas, al tiempo que logra un rendimiento competitivo con los métodos más avanzados (SOTAs) en la generación de T2V de escena única en dominios abiertos. También demostramos que nuestro marco puede controlar dinámicamente la fuerza de la guía de diseño y puede generar videos con imágenes proporcionadas por el usuario. Esperamos que nuestro marco inspire trabajos futuros para integrar mejor la capacidad de planificación de los LLMs en la generación de videos largos consistentes.
English
Although recent text-to-video (T2V) generation methods have seen significant
advancements, most of these works focus on producing short video clips of a
single event with a single background (i.e., single-scene videos). Meanwhile,
recent large language models (LLMs) have demonstrated their capability in
generating layouts and programs to control downstream visual modules such as
image generation models. This raises an important question: can we leverage the
knowledge embedded in these LLMs for temporally consistent long video
generation? In this paper, we propose VideoDirectorGPT, a novel framework for
consistent multi-scene video generation that uses the knowledge of LLMs for
video content planning and grounded video generation. Specifically, given a
single text prompt, we first ask our video planner LLM (GPT-4) to expand it
into a 'video plan', which involves generating the scene descriptions, the
entities with their respective layouts, the background for each scene, and
consistency groupings of the entities and backgrounds. Next, guided by this
output from the video planner, our video generator, Layout2Vid, has explicit
control over spatial layouts and can maintain temporal consistency of
entities/backgrounds across scenes, while only trained with image-level
annotations. Our experiments demonstrate that VideoDirectorGPT framework
substantially improves layout and movement control in both single- and
multi-scene video generation and can generate multi-scene videos with visual
consistency across scenes, while achieving competitive performance with SOTAs
in open-domain single-scene T2V generation. We also demonstrate that our
framework can dynamically control the strength for layout guidance and can also
generate videos with user-provided images. We hope our framework can inspire
future work on better integrating the planning ability of LLMs into consistent
long video generation.