Animate-A-Story: Geschichtenerzählen mit retrieval-augmentierter Videogenerierung
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation
July 13, 2023
Autoren: Yingqing He, Menghan Xia, Haoxin Chen, Xiaodong Cun, Yuan Gong, Jinbo Xing, Yong Zhang, Xintao Wang, Chao Weng, Ying Shan, Qifeng Chen
cs.AI
Zusammenfassung
Die Erstellung von Videos für visuelles Storytelling kann ein mühsamer und komplexer Prozess sein, der in der Regel entweder Live-Action-Aufnahmen oder die Rendering von Grafikanimationen erfordert. Um diese Herausforderungen zu umgehen, besteht unsere zentrale Idee darin, die Fülle vorhandener Videoclips zu nutzen und ein kohärentes Storytelling-Video durch die Anpassung ihrer Erscheinungsbilder zu synthetisieren. Dies erreichen wir durch die Entwicklung eines Frameworks, das aus zwei funktionalen Modulen besteht: (i) Motion Structure Retrieval, das Videokandidaten mit gewünschten Szenen- oder Bewegungszusammenhängen bereitstellt, die durch Abfragetexte beschrieben werden, und (ii) Structure-Guided Text-to-Video Synthesis, das plotorientierte Videos unter Anleitung der Bewegungsstruktur und Textprompts generiert. Für das erste Modul nutzen wir ein vorhandenes Video-Retrieval-System und extrahieren Videotiefen als Bewegungsstruktur. Für das zweite Modul schlagen wir ein kontrollierbares Videogenerierungsmodell vor, das flexible Steuerungsmöglichkeiten über Struktur und Charaktere bietet. Die Videos werden durch die Befolgung der strukturellen Anleitung und der Erscheinungsanweisung synthetisiert. Um visuelle Konsistenz über die Clips hinweg sicherzustellen, schlagen wir einen effektiven Ansatz zur Konzeptpersonalisierung vor, der die Spezifikation der gewünschten Charakteridentitäten durch Textprompts ermöglicht. Umfangreiche Experimente zeigen, dass unser Ansatz signifikante Vorteile gegenüber verschiedenen bestehenden Baselines aufweist.
English
Generating videos for visual storytelling can be a tedious and complex
process that typically requires either live-action filming or graphics
animation rendering. To bypass these challenges, our key idea is to utilize the
abundance of existing video clips and synthesize a coherent storytelling video
by customizing their appearances. We achieve this by developing a framework
comprised of two functional modules: (i) Motion Structure Retrieval, which
provides video candidates with desired scene or motion context described by
query texts, and (ii) Structure-Guided Text-to-Video Synthesis, which generates
plot-aligned videos under the guidance of motion structure and text prompts.
For the first module, we leverage an off-the-shelf video retrieval system and
extract video depths as motion structure. For the second module, we propose a
controllable video generation model that offers flexible controls over
structure and characters. The videos are synthesized by following the
structural guidance and appearance instruction. To ensure visual consistency
across clips, we propose an effective concept personalization approach, which
allows the specification of the desired character identities through text
prompts. Extensive experiments demonstrate that our approach exhibits
significant advantages over various existing baselines.