Animate-A-Story : Raconter des histoires avec la génération de vidéos augmentée par la récupération
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation
July 13, 2023
Auteurs: Yingqing He, Menghan Xia, Haoxin Chen, Xiaodong Cun, Yuan Gong, Jinbo Xing, Yong Zhang, Xintao Wang, Chao Weng, Ying Shan, Qifeng Chen
cs.AI
Résumé
La génération de vidéos pour la narration visuelle peut s'avérer un processus fastidieux et complexe, nécessitant généralement soit un tournage en prise de vue réelle, soit un rendu d'animation graphique. Pour contourner ces difficultés, notre idée clé est d'exploiter l'abondance de clips vidéo existants et de synthétiser une vidéo narrative cohérente en personnalisant leurs apparences. Nous y parvenons en développant un cadre composé de deux modules fonctionnels : (i) la Récupération de Structure de Mouvement, qui fournit des candidats vidéo avec le contexte de scène ou de mouvement souhaité décrit par des textes de requête, et (ii) la Synthèse Vidéo Guidée par Structure à partir de Texte, qui génère des vidéos alignées sur l'intrigue sous la guidance de la structure de mouvement et des prompts textuels. Pour le premier module, nous exploitons un système de récupération vidéo existant et extrayons les profondeurs vidéo comme structure de mouvement. Pour le second module, nous proposons un modèle de génération vidéo contrôlable offrant une flexibilité dans le contrôle de la structure et des personnages. Les vidéos sont synthétisées en suivant les instructions structurelles et d'apparence. Pour garantir une cohérence visuelle entre les clips, nous proposons une approche efficace de personnalisation de concept, permettant de spécifier les identités des personnages souhaitées via des prompts textuels. Des expériences approfondies démontrent que notre approche présente des avantages significatifs par rapport à diverses méthodes de référence existantes.
English
Generating videos for visual storytelling can be a tedious and complex
process that typically requires either live-action filming or graphics
animation rendering. To bypass these challenges, our key idea is to utilize the
abundance of existing video clips and synthesize a coherent storytelling video
by customizing their appearances. We achieve this by developing a framework
comprised of two functional modules: (i) Motion Structure Retrieval, which
provides video candidates with desired scene or motion context described by
query texts, and (ii) Structure-Guided Text-to-Video Synthesis, which generates
plot-aligned videos under the guidance of motion structure and text prompts.
For the first module, we leverage an off-the-shelf video retrieval system and
extract video depths as motion structure. For the second module, we propose a
controllable video generation model that offers flexible controls over
structure and characters. The videos are synthesized by following the
structural guidance and appearance instruction. To ensure visual consistency
across clips, we propose an effective concept personalization approach, which
allows the specification of the desired character identities through text
prompts. Extensive experiments demonstrate that our approach exhibits
significant advantages over various existing baselines.