ChatPaper.aiChatPaper

Animate-A-Story: Narración con Generación de Vídeo Aumentada por Recuperación

Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation

July 13, 2023
Autores: Yingqing He, Menghan Xia, Haoxin Chen, Xiaodong Cun, Yuan Gong, Jinbo Xing, Yong Zhang, Xintao Wang, Chao Weng, Ying Shan, Qifeng Chen
cs.AI

Resumen

La generación de videos para narrativas visuales puede ser un proceso tedioso y complejo que generalmente requiere filmación en vivo o renderizado de animaciones gráficas. Para sortear estos desafíos, nuestra idea clave es aprovechar la abundancia de clips de video existentes y sintetizar un video narrativo coherente personalizando sus apariencias. Logramos esto desarrollando un marco compuesto por dos módulos funcionales: (i) Recuperación de Estructura de Movimiento, que proporciona candidatos de video con el contexto de escena o movimiento deseado descrito por textos de consulta, y (ii) Síntesis de Texto a Video Guiada por Estructura, que genera videos alineados con la trama bajo la guía de la estructura de movimiento y las indicaciones de texto. Para el primer módulo, utilizamos un sistema de recuperación de video estándar y extraemos las profundidades del video como estructura de movimiento. Para el segundo módulo, proponemos un modelo de generación de video controlable que ofrece controles flexibles sobre la estructura y los personajes. Los videos se sintetizan siguiendo la guía estructural y las instrucciones de apariencia. Para garantizar la consistencia visual entre los clips, proponemos un enfoque efectivo de personalización de conceptos, que permite especificar las identidades deseadas de los personajes mediante indicaciones de texto. Experimentos extensos demuestran que nuestro enfoque exhibe ventajas significativas sobre varias líneas base existentes.
English
Generating videos for visual storytelling can be a tedious and complex process that typically requires either live-action filming or graphics animation rendering. To bypass these challenges, our key idea is to utilize the abundance of existing video clips and synthesize a coherent storytelling video by customizing their appearances. We achieve this by developing a framework comprised of two functional modules: (i) Motion Structure Retrieval, which provides video candidates with desired scene or motion context described by query texts, and (ii) Structure-Guided Text-to-Video Synthesis, which generates plot-aligned videos under the guidance of motion structure and text prompts. For the first module, we leverage an off-the-shelf video retrieval system and extract video depths as motion structure. For the second module, we propose a controllable video generation model that offers flexible controls over structure and characters. The videos are synthesized by following the structural guidance and appearance instruction. To ensure visual consistency across clips, we propose an effective concept personalization approach, which allows the specification of the desired character identities through text prompts. Extensive experiments demonstrate that our approach exhibits significant advantages over various existing baselines.
PDF100December 15, 2024