ChatPaper.aiChatPaper

VideoDrafter : Génération de vidéos multi-scènes cohérentes en contenu avec des modèles de langage de grande taille

VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM

January 2, 2024
Auteurs: Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
cs.AI

Résumé

Les récentes innovations et avancées dans les modèles de diffusion ont considérablement élargi les possibilités de génération de vidéos de haute qualité à partir de prompts donnés. La plupart des travaux existants se concentrent sur des scénarios à scène unique, où un seul événement vidéo se déroule dans un arrière-plan unique. Cependant, étendre cette capacité à la génération de vidéos multi-scènes n'est pas trivial et nécessite de gérer habilement la logique entre les scènes tout en préservant l'apparence visuelle cohérente des éléments clés à travers les différentes scènes. Dans cet article, nous proposons un nouveau cadre, nommé VideoDrafter, pour la génération de vidéos multi-scènes avec une cohérence de contenu. Techniquement, VideoDrafter exploite les modèles de langage de grande taille (LLM) pour convertir le prompt d'entrée en un script multi-scènes détaillé, bénéficiant ainsi des connaissances logiques acquises par le LLM. Le script pour chaque scène comprend un prompt décrivant l'événement, les entités avant-plan/arrière-plan, ainsi que les mouvements de caméra. VideoDrafter identifie les entités communes à travers le script et demande au LLM de détailler chaque entité. La description résultante de chaque entité est ensuite utilisée par un modèle texte-à-image pour générer une image de référence pour chaque entité. Enfin, VideoDrafter produit une vidéo multi-scènes en générant chaque scène via un processus de diffusion qui prend en compte les images de référence, le prompt descriptif de l'événement et les mouvements de caméra. Le modèle de diffusion intègre les images de référence comme condition et alignement pour renforcer la cohérence de contenu des vidéos multi-scènes. Des expériences approfondies démontrent que VideoDrafter surpasse les modèles de génération de vidéos de l'état de l'art en termes de qualité visuelle, de cohérence de contenu et de préférence utilisateur.
English
The recent innovations and breakthroughs in diffusion models have significantly expanded the possibilities of generating high-quality videos for the given prompts. Most existing works tackle the single-scene scenario with only one video event occurring in a single background. Extending to generate multi-scene videos nevertheless is not trivial and necessitates to nicely manage the logic in between while preserving the consistent visual appearance of key content across video scenes. In this paper, we propose a novel framework, namely VideoDrafter, for content-consistent multi-scene video generation. Technically, VideoDrafter leverages Large Language Models (LLM) to convert the input prompt into comprehensive multi-scene script that benefits from the logical knowledge learnt by LLM. The script for each scene includes a prompt describing the event, the foreground/background entities, as well as camera movement. VideoDrafter identifies the common entities throughout the script and asks LLM to detail each entity. The resultant entity description is then fed into a text-to-image model to generate a reference image for each entity. Finally, VideoDrafter outputs a multi-scene video by generating each scene video via a diffusion process that takes the reference images, the descriptive prompt of the event and camera movement into account. The diffusion model incorporates the reference images as the condition and alignment to strengthen the content consistency of multi-scene videos. Extensive experiments demonstrate that VideoDrafter outperforms the SOTA video generation models in terms of visual quality, content consistency, and user preference.
PDF222December 15, 2024