Animate-A-Story: Narración con Generación de Vídeo Aumentada por Recuperación
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation
July 13, 2023
Autores: Yingqing He, Menghan Xia, Haoxin Chen, Xiaodong Cun, Yuan Gong, Jinbo Xing, Yong Zhang, Xintao Wang, Chao Weng, Ying Shan, Qifeng Chen
cs.AI
Resumen
La generación de videos para narrativas visuales puede ser un proceso tedioso y complejo que generalmente requiere filmación en vivo o renderizado de animaciones gráficas. Para sortear estos desafíos, nuestra idea clave es aprovechar la abundancia de clips de video existentes y sintetizar un video narrativo coherente personalizando sus apariencias. Logramos esto desarrollando un marco compuesto por dos módulos funcionales: (i) Recuperación de Estructura de Movimiento, que proporciona candidatos de video con el contexto de escena o movimiento deseado descrito por textos de consulta, y (ii) Síntesis de Texto a Video Guiada por Estructura, que genera videos alineados con la trama bajo la guía de la estructura de movimiento y las indicaciones de texto. Para el primer módulo, utilizamos un sistema de recuperación de video estándar y extraemos las profundidades del video como estructura de movimiento. Para el segundo módulo, proponemos un modelo de generación de video controlable que ofrece controles flexibles sobre la estructura y los personajes. Los videos se sintetizan siguiendo la guía estructural y las instrucciones de apariencia. Para garantizar la consistencia visual entre los clips, proponemos un enfoque efectivo de personalización de conceptos, que permite especificar las identidades deseadas de los personajes mediante indicaciones de texto. Experimentos extensos demuestran que nuestro enfoque exhibe ventajas significativas sobre varias líneas base existentes.
English
Generating videos for visual storytelling can be a tedious and complex
process that typically requires either live-action filming or graphics
animation rendering. To bypass these challenges, our key idea is to utilize the
abundance of existing video clips and synthesize a coherent storytelling video
by customizing their appearances. We achieve this by developing a framework
comprised of two functional modules: (i) Motion Structure Retrieval, which
provides video candidates with desired scene or motion context described by
query texts, and (ii) Structure-Guided Text-to-Video Synthesis, which generates
plot-aligned videos under the guidance of motion structure and text prompts.
For the first module, we leverage an off-the-shelf video retrieval system and
extract video depths as motion structure. For the second module, we propose a
controllable video generation model that offers flexible controls over
structure and characters. The videos are synthesized by following the
structural guidance and appearance instruction. To ensure visual consistency
across clips, we propose an effective concept personalization approach, which
allows the specification of the desired character identities through text
prompts. Extensive experiments demonstrate that our approach exhibits
significant advantages over various existing baselines.