Animate-A-Story : Raconter des histoires avec la génération de vidéos augmentée par la récupération

Résumé

La génération de vidéos pour la narration visuelle peut s'avérer un processus fastidieux et complexe, nécessitant généralement soit un tournage en prise de vue réelle, soit un rendu d'animation graphique. Pour contourner ces difficultés, notre idée clé est d'exploiter l'abondance de clips vidéo existants et de synthétiser une vidéo narrative cohérente en personnalisant leurs apparences. Nous y parvenons en développant un cadre composé de deux modules fonctionnels : (i) la Récupération de Structure de Mouvement, qui fournit des candidats vidéo avec le contexte de scène ou de mouvement souhaité décrit par des textes de requête, et (ii) la Synthèse Vidéo Guidée par Structure à partir de Texte, qui génère des vidéos alignées sur l'intrigue sous la guidance de la structure de mouvement et des prompts textuels. Pour le premier module, nous exploitons un système de récupération vidéo existant et extrayons les profondeurs vidéo comme structure de mouvement. Pour le second module, nous proposons un modèle de génération vidéo contrôlable offrant une flexibilité dans le contrôle de la structure et des personnages. Les vidéos sont synthétisées en suivant les instructions structurelles et d'apparence. Pour garantir une cohérence visuelle entre les clips, nous proposons une approche efficace de personnalisation de concept, permettant de spécifier les identités des personnages souhaitées via des prompts textuels. Des expériences approfondies démontrent que notre approche présente des avantages significatifs par rapport à diverses méthodes de référence existantes.

English

Generating videos for visual storytelling can be a tedious and complex process that typically requires either live-action filming or graphics animation rendering. To bypass these challenges, our key idea is to utilize the abundance of existing video clips and synthesize a coherent storytelling video by customizing their appearances. We achieve this by developing a framework comprised of two functional modules: (i) Motion Structure Retrieval, which provides video candidates with desired scene or motion context described by query texts, and (ii) Structure-Guided Text-to-Video Synthesis, which generates plot-aligned videos under the guidance of motion structure and text prompts. For the first module, we leverage an off-the-shelf video retrieval system and extract video depths as motion structure. For the second module, we propose a controllable video generation model that offers flexible controls over structure and characters. The videos are synthesized by following the structural guidance and appearance instruction. To ensure visual consistency across clips, we propose an effective concept personalization approach, which allows the specification of the desired character identities through text prompts. Extensive experiments demonstrate that our approach exhibits significant advantages over various existing baselines.

Animate-A-Story : Raconter des histoires avec la génération de vidéos augmentée par la récupération

Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation

Résumé

Support