DreamRunner: Feingliedrige Erzählvideoerstellung mit Bewegungsanpassung unter Verwendung von Rückgriffen

papers.abstract

Die Generierung von Storytelling-Videos (SVG) ist kürzlich als Aufgabe entstanden, um lange, mehrere Bewegungen und Szenen umfassende Videos zu erstellen, die die Geschichte aus dem Eingabetextskript konsistent darstellen. SVG bietet ein großes Potenzial für die vielfältige Inhalte in den Bereichen Medien und Unterhaltung, birgt jedoch auch bedeutende Herausforderungen: (1) Objekte müssen eine Vielzahl feingranularer, komplexer Bewegungen aufweisen, (2) mehrere Objekte müssen konsistent über Szenen hinweg erscheinen, und (3) Subjekte können mehrere Bewegungen mit nahtlosen Übergängen innerhalb einer einzelnen Szene erfordern. Um diesen Herausforderungen zu begegnen, schlagen wir DreamRunner vor, eine neuartige Methode zur Generierung von Story-zu-Video: Zunächst strukturieren wir das Eingabetextskript mithilfe eines großen Sprachmodells (LLM), um sowohl grobgranulare Szenenplanung als auch feingranulare Layout- und Bewegungsplanung auf Objektebene zu erleichtern. Anschließend präsentiert DreamRunner eine abrufgestützte Testzeit-Anpassung, um Bewegungsprioritäten für Objekte in jeder Szene zu erfassen, die eine vielfältige Bewegungsanpassung basierend auf abgerufenen Videos unterstützen und somit die Generierung neuer Videos mit komplexen, skriptgesteuerten Bewegungen erleichtern. Schließlich schlagen wir ein neuartiges räumlich-zeitliches, regionsbasiertes 3D-Aufmerksamkeits- und Prior-Injektionsmodul SR3AI für die feingranulare Objekt-Bewegungsbindung und die semantische Steuerung framegenau vor. Wir vergleichen DreamRunner mit verschiedenen SVG-Baselines und zeigen eine erstklassige Leistung in Bezug auf Charakterkonsistenz, Textausrichtung und fließende Übergänge. Darüber hinaus zeigt DreamRunner eine starke Fähigkeit zur feingranularen Bedingungsverfolgung in der kompositorischen Text-zu-Video-Generierung und übertrifft Baselines signifikant in T2V-ComBench. Abschließend validieren wir die robuste Fähigkeit von DreamRunner, Multi-Objekt-Interaktionen anhand qualitativer Beispiele zu generieren.

English

Storytelling video generation (SVG) has recently emerged as a task to create long, multi-motion, multi-scene videos that consistently represent the story described in the input text script. SVG holds great potential for diverse content creation in media and entertainment; however, it also presents significant challenges: (1) objects must exhibit a range of fine-grained, complex motions, (2) multiple objects need to appear consistently across scenes, and (3) subjects may require multiple motions with seamless transitions within a single scene. To address these challenges, we propose DreamRunner, a novel story-to-video generation method: First, we structure the input script using a large language model (LLM) to facilitate both coarse-grained scene planning as well as fine-grained object-level layout and motion planning. Next, DreamRunner presents retrieval-augmented test-time adaptation to capture target motion priors for objects in each scene, supporting diverse motion customization based on retrieved videos, thus facilitating the generation of new videos with complex, scripted motions. Lastly, we propose a novel spatial-temporal region-based 3D attention and prior injection module SR3AI for fine-grained object-motion binding and frame-by-frame semantic control. We compare DreamRunner with various SVG baselines, demonstrating state-of-the-art performance in character consistency, text alignment, and smooth transitions. Additionally, DreamRunner exhibits strong fine-grained condition-following ability in compositional text-to-video generation, significantly outperforming baselines on T2V-ComBench. Finally, we validate DreamRunner's robust ability to generate multi-object interactions with qualitative examples.

DreamRunner: Feingliedrige Erzählvideoerstellung mit Bewegungsanpassung unter Verwendung von Rückgriffen

DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

papers.abstract

Support