ChatPaper.aiChatPaper

DreamRunner : Génération de vidéos de narration détaillée avec adaptation de mouvement augmentée par récupération

DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

November 25, 2024
Auteurs: Zun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal
cs.AI

Résumé

La génération de vidéos narratives (SVG) a récemment émergé en tant que tâche visant à créer des vidéos longues, multi-mouvements, multi-scènes qui représentent de manière cohérente l'histoire décrite dans le script texte d'entrée. Le SVG présente un grand potentiel pour la création de contenus divers dans les médias et le divertissement; cependant, il présente également des défis significatifs : (1) les objets doivent présenter une gamme de mouvements complexes et détaillés, (2) plusieurs objets doivent apparaître de manière cohérente à travers les scènes, et (3) les sujets peuvent nécessiter plusieurs mouvements avec des transitions fluides au sein d'une seule scène. Pour relever ces défis, nous proposons DreamRunner, une méthode novatrice de génération de vidéos à partir d'histoires : Tout d'abord, nous structurons le script d'entrée en utilisant un grand modèle de langage (LLM) pour faciliter à la fois la planification des scènes à gros grains et la planification détaillée de la disposition et des mouvements au niveau des objets. Ensuite, DreamRunner propose une adaptation à l'épreuve du temps augmentée par la récupération pour capturer les priorités de mouvement cibles pour les objets dans chaque scène, soutenant une personnalisation de mouvement diversifiée basée sur des vidéos récupérées, facilitant ainsi la génération de nouvelles vidéos avec des mouvements scriptés complexes. Enfin, nous proposons un module d'attention 3D basé sur des régions spatiales-temporelles et une injection de priorité SR3AI pour la liaison détaillée des mouvements des objets et le contrôle sémantique image par image. Nous comparons DreamRunner avec diverses références SVG, démontrant des performances de pointe en termes de cohérence des personnages, d'alignement du texte et de transitions fluides. De plus, DreamRunner présente une forte capacité à suivre de manière détaillée les conditions dans la génération compositionnelle de texte en vidéo, surpassant significativement les références sur T2V-ComBench. Enfin, nous validons la capacité robuste de DreamRunner à générer des interactions multi-objets avec des exemples qualitatifs.
English
Storytelling video generation (SVG) has recently emerged as a task to create long, multi-motion, multi-scene videos that consistently represent the story described in the input text script. SVG holds great potential for diverse content creation in media and entertainment; however, it also presents significant challenges: (1) objects must exhibit a range of fine-grained, complex motions, (2) multiple objects need to appear consistently across scenes, and (3) subjects may require multiple motions with seamless transitions within a single scene. To address these challenges, we propose DreamRunner, a novel story-to-video generation method: First, we structure the input script using a large language model (LLM) to facilitate both coarse-grained scene planning as well as fine-grained object-level layout and motion planning. Next, DreamRunner presents retrieval-augmented test-time adaptation to capture target motion priors for objects in each scene, supporting diverse motion customization based on retrieved videos, thus facilitating the generation of new videos with complex, scripted motions. Lastly, we propose a novel spatial-temporal region-based 3D attention and prior injection module SR3AI for fine-grained object-motion binding and frame-by-frame semantic control. We compare DreamRunner with various SVG baselines, demonstrating state-of-the-art performance in character consistency, text alignment, and smooth transitions. Additionally, DreamRunner exhibits strong fine-grained condition-following ability in compositional text-to-video generation, significantly outperforming baselines on T2V-ComBench. Finally, we validate DreamRunner's robust ability to generate multi-object interactions with qualitative examples.

Summary

AI-Generated Summary

PDF192November 26, 2024