VidéoAuteur : Vers la génération de vidéos narratives longues
VideoAuteur: Towards Long Narrative Video Generation
January 10, 2025
Auteurs: Junfei Xiao, Feng Cheng, Lu Qi, Liangke Gui, Jiepeng Cen, Zhibei Ma, Alan Yuille, Lu Jiang
cs.AI
Résumé
Les modèles récents de génération de vidéos ont montré des résultats prometteurs dans la production de clips vidéo de haute qualité d'une durée de plusieurs secondes. Cependant, ces modèles sont confrontés à des défis pour générer de longues séquences qui transmettent des événements clairs et informatifs, limitant leur capacité à soutenir des narrations cohérentes. Dans cet article, nous présentons un ensemble de données vidéo de cuisine à grande échelle conçu pour faire progresser la génération de récits de longue durée dans le domaine de la cuisine. Nous validons la qualité de notre ensemble de données proposé en termes de fidélité visuelle et d'exactitude des légendes textuelles en utilisant respectivement des Modèles Vision-Langage de pointe (VLM) et des modèles de génération de vidéos. Nous introduisons en outre un Directeur Vidéo Narratif Long pour améliorer à la fois la cohérence visuelle et sémantique dans les vidéos générées et souligner le rôle de l'alignement des plongements visuels pour obtenir une qualité vidéo globale améliorée. Notre méthode démontre des améliorations substantielles dans la génération de keyframes visuellement détaillés et sémantiquement alignés, soutenue par des techniques de fine-tuning qui intègrent des plongements textuels et d'image dans le processus de génération de vidéos. Page du projet : https://videoauteur.github.io/
English
Recent video generation models have shown promising results in producing
high-quality video clips lasting several seconds. However, these models face
challenges in generating long sequences that convey clear and informative
events, limiting their ability to support coherent narrations. In this paper,
we present a large-scale cooking video dataset designed to advance long-form
narrative generation in the cooking domain. We validate the quality of our
proposed dataset in terms of visual fidelity and textual caption accuracy using
state-of-the-art Vision-Language Models (VLMs) and video generation models,
respectively. We further introduce a Long Narrative Video Director to enhance
both visual and semantic coherence in generated videos and emphasize the role
of aligning visual embeddings to achieve improved overall video quality. Our
method demonstrates substantial improvements in generating visually detailed
and semantically aligned keyframes, supported by finetuning techniques that
integrate text and image embeddings within the video generation process.
Project page: https://videoauteur.github.io/