Animate-A-Story: Geschichtenerzählen mit retrieval-augmentierter Videogenerierung

Zusammenfassung

Die Erstellung von Videos für visuelles Storytelling kann ein mühsamer und komplexer Prozess sein, der in der Regel entweder Live-Action-Aufnahmen oder die Rendering von Grafikanimationen erfordert. Um diese Herausforderungen zu umgehen, besteht unsere zentrale Idee darin, die Fülle vorhandener Videoclips zu nutzen und ein kohärentes Storytelling-Video durch die Anpassung ihrer Erscheinungsbilder zu synthetisieren. Dies erreichen wir durch die Entwicklung eines Frameworks, das aus zwei funktionalen Modulen besteht: (i) Motion Structure Retrieval, das Videokandidaten mit gewünschten Szenen- oder Bewegungszusammenhängen bereitstellt, die durch Abfragetexte beschrieben werden, und (ii) Structure-Guided Text-to-Video Synthesis, das plotorientierte Videos unter Anleitung der Bewegungsstruktur und Textprompts generiert. Für das erste Modul nutzen wir ein vorhandenes Video-Retrieval-System und extrahieren Videotiefen als Bewegungsstruktur. Für das zweite Modul schlagen wir ein kontrollierbares Videogenerierungsmodell vor, das flexible Steuerungsmöglichkeiten über Struktur und Charaktere bietet. Die Videos werden durch die Befolgung der strukturellen Anleitung und der Erscheinungsanweisung synthetisiert. Um visuelle Konsistenz über die Clips hinweg sicherzustellen, schlagen wir einen effektiven Ansatz zur Konzeptpersonalisierung vor, der die Spezifikation der gewünschten Charakteridentitäten durch Textprompts ermöglicht. Umfangreiche Experimente zeigen, dass unser Ansatz signifikante Vorteile gegenüber verschiedenen bestehenden Baselines aufweist.

English

Generating videos for visual storytelling can be a tedious and complex process that typically requires either live-action filming or graphics animation rendering. To bypass these challenges, our key idea is to utilize the abundance of existing video clips and synthesize a coherent storytelling video by customizing their appearances. We achieve this by developing a framework comprised of two functional modules: (i) Motion Structure Retrieval, which provides video candidates with desired scene or motion context described by query texts, and (ii) Structure-Guided Text-to-Video Synthesis, which generates plot-aligned videos under the guidance of motion structure and text prompts. For the first module, we leverage an off-the-shelf video retrieval system and extract video depths as motion structure. For the second module, we propose a controllable video generation model that offers flexible controls over structure and characters. The videos are synthesized by following the structural guidance and appearance instruction. To ensure visual consistency across clips, we propose an effective concept personalization approach, which allows the specification of the desired character identities through text prompts. Extensive experiments demonstrate that our approach exhibits significant advantages over various existing baselines.

Animate-A-Story: Geschichtenerzählen mit retrieval-augmentierter Videogenerierung

Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation

Zusammenfassung

Support