ChatPaper.aiChatPaper

DreamRunner: Generación de Videos de Narración Detallada con Adaptación de Movimiento Aumentada por Recuperación.

DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

November 25, 2024
Autores: Zun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal
cs.AI

Resumen

La generación de videos narrativos (SVG) ha surgido recientemente como una tarea para crear videos largos, con múltiples movimientos y escenas que representen consistentemente la historia descrita en el guion de texto de entrada. El SVG tiene un gran potencial para la creación de contenido diverso en medios y entretenimiento; sin embargo, también presenta desafíos significativos: (1) los objetos deben exhibir una variedad de movimientos complejos y detallados, (2) múltiples objetos deben aparecer consistentemente a lo largo de las escenas y (3) los sujetos pueden requerir múltiples movimientos con transiciones fluidas dentro de una sola escena. Para abordar estos desafíos, proponemos DreamRunner, un novedoso método de generación de video a partir de historias: Primero, estructuramos el guion de entrada utilizando un gran modelo de lenguaje (LLM) para facilitar tanto la planificación de escenas a nivel grueso como la disposición de objetos detallada y la planificación de movimientos. A continuación, DreamRunner presenta una adaptación en tiempo de prueba aumentada por recuperación para capturar prioridades de movimiento objetivo para los objetos en cada escena, apoyando la personalización de movimientos diversos basados en videos recuperados, facilitando así la generación de nuevos videos con movimientos complejos y guionizados. Por último, proponemos un módulo de atención 3D basado en regiones espacio-temporales y en inyección de prioridades SR3AI para la vinculación de movimientos de objetos detallados y el control semántico cuadro por cuadro. Comparamos DreamRunner con varias líneas base de SVG, demostrando un rendimiento de vanguardia en consistencia de personajes, alineación de texto y transiciones suaves. Además, DreamRunner muestra una sólida capacidad de seguimiento de condiciones detalladas en la generación de texto a video compuesto, superando significativamente a las líneas base en T2V-ComBench. Finalmente, validamos la capacidad robusta de DreamRunner para generar interacciones multiobjetos con ejemplos cualitativos.
English
Storytelling video generation (SVG) has recently emerged as a task to create long, multi-motion, multi-scene videos that consistently represent the story described in the input text script. SVG holds great potential for diverse content creation in media and entertainment; however, it also presents significant challenges: (1) objects must exhibit a range of fine-grained, complex motions, (2) multiple objects need to appear consistently across scenes, and (3) subjects may require multiple motions with seamless transitions within a single scene. To address these challenges, we propose DreamRunner, a novel story-to-video generation method: First, we structure the input script using a large language model (LLM) to facilitate both coarse-grained scene planning as well as fine-grained object-level layout and motion planning. Next, DreamRunner presents retrieval-augmented test-time adaptation to capture target motion priors for objects in each scene, supporting diverse motion customization based on retrieved videos, thus facilitating the generation of new videos with complex, scripted motions. Lastly, we propose a novel spatial-temporal region-based 3D attention and prior injection module SR3AI for fine-grained object-motion binding and frame-by-frame semantic control. We compare DreamRunner with various SVG baselines, demonstrating state-of-the-art performance in character consistency, text alignment, and smooth transitions. Additionally, DreamRunner exhibits strong fine-grained condition-following ability in compositional text-to-video generation, significantly outperforming baselines on T2V-ComBench. Finally, we validate DreamRunner's robust ability to generate multi-object interactions with qualitative examples.

Summary

AI-Generated Summary

PDF192November 26, 2024