DreamRunner: Fijnmazige verhalende videogeneratie met Bewegingsaanpassing verrijkt met ophalen

Samenvatting

Het genereren van verhalende video's (SVG) is onlangs naar voren gekomen als een taak om lange, multi-beweging, multi-scene video's te creëren die consequent het verhaal vertegenwoordigen zoals beschreven in het invoertekstscript. SVG heeft veel potentieel voor diverse inhoudcreatie in media en entertainment; echter, het brengt ook aanzienlijke uitdagingen met zich mee: (1) objecten moeten een scala aan fijnmazige, complexe bewegingen vertonen, (2) meerdere objecten moeten consistent verschijnen over scènes, en (3) onderwerpen kunnen meerdere bewegingen vereisen met naadloze overgangen binnen een enkele scène. Om deze uitdagingen aan te pakken, stellen we DreamRunner voor, een nieuw methode voor het genereren van verhaal-naar-video: Ten eerste structureren we het invoertekstscript met behulp van een groot taalmodel (LLM) om zowel grofmazige scèneplanning als fijnmazige objectniveau lay-out en bewegingsplanning te vergemakkelijken. Vervolgens presenteert DreamRunner retrieval-versterkte testtijd-aanpassing om bewegingsprioriteiten voor objecten in elke scène vast te leggen, waardoor diverse bewegingsaanpassingen mogelijk zijn op basis van opgehaalde video's, en zo de generatie van nieuwe video's met complexe, gescripte bewegingen vergemakkelijkt wordt. Ten slotte stellen we een nieuw ruimtelijk-temporeel op regio's gebaseerd 3D-aandachts- en prioriteitsinjectiemodule SR3AI voor fijnmazige object-bewegingsbinding en frame-voor-frame semantische controle voor. We vergelijken DreamRunner met verschillende SVG-baselines, waarbij we een state-of-the-art prestatie aantonen in karakterconsistentie, tekstuitlijning en vloeiende overgangen. Bovendien vertoont DreamRunner een sterke fijnmazige voorwaarde-volgende vaardigheid in compositorische tekst-naar-video-generatie, waarbij het aanzienlijk beter presteert dan baselines op T2V-ComBench. Tot slot valideren we DreamRunner's robuuste vermogen om multi-objectinteracties te genereren met kwalitatieve voorbeelden.

English

Storytelling video generation (SVG) has recently emerged as a task to create long, multi-motion, multi-scene videos that consistently represent the story described in the input text script. SVG holds great potential for diverse content creation in media and entertainment; however, it also presents significant challenges: (1) objects must exhibit a range of fine-grained, complex motions, (2) multiple objects need to appear consistently across scenes, and (3) subjects may require multiple motions with seamless transitions within a single scene. To address these challenges, we propose DreamRunner, a novel story-to-video generation method: First, we structure the input script using a large language model (LLM) to facilitate both coarse-grained scene planning as well as fine-grained object-level layout and motion planning. Next, DreamRunner presents retrieval-augmented test-time adaptation to capture target motion priors for objects in each scene, supporting diverse motion customization based on retrieved videos, thus facilitating the generation of new videos with complex, scripted motions. Lastly, we propose a novel spatial-temporal region-based 3D attention and prior injection module SR3AI for fine-grained object-motion binding and frame-by-frame semantic control. We compare DreamRunner with various SVG baselines, demonstrating state-of-the-art performance in character consistency, text alignment, and smooth transitions. Additionally, DreamRunner exhibits strong fine-grained condition-following ability in compositional text-to-video generation, significantly outperforming baselines on T2V-ComBench. Finally, we validate DreamRunner's robust ability to generate multi-object interactions with qualitative examples.

DreamRunner: Fijnmazige verhalende videogeneratie met Bewegingsaanpassing verrijkt met ophalen

DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

Samenvatting

Summary

Support

Support