VidéoAuteur : Vers la génération de vidéos narratives longues

Résumé

Les modèles récents de génération de vidéos ont montré des résultats prometteurs dans la production de clips vidéo de haute qualité d'une durée de plusieurs secondes. Cependant, ces modèles sont confrontés à des défis pour générer de longues séquences qui transmettent des événements clairs et informatifs, limitant leur capacité à soutenir des narrations cohérentes. Dans cet article, nous présentons un ensemble de données vidéo de cuisine à grande échelle conçu pour faire progresser la génération de récits de longue durée dans le domaine de la cuisine. Nous validons la qualité de notre ensemble de données proposé en termes de fidélité visuelle et d'exactitude des légendes textuelles en utilisant respectivement des Modèles Vision-Langage de pointe (VLM) et des modèles de génération de vidéos. Nous introduisons en outre un Directeur Vidéo Narratif Long pour améliorer à la fois la cohérence visuelle et sémantique dans les vidéos générées et souligner le rôle de l'alignement des plongements visuels pour obtenir une qualité vidéo globale améliorée. Notre méthode démontre des améliorations substantielles dans la génération de keyframes visuellement détaillés et sémantiquement alignés, soutenue par des techniques de fine-tuning qui intègrent des plongements textuels et d'image dans le processus de génération de vidéos. Page du projet : https://videoauteur.github.io/

English

Recent video generation models have shown promising results in producing high-quality video clips lasting several seconds. However, these models face challenges in generating long sequences that convey clear and informative events, limiting their ability to support coherent narrations. In this paper, we present a large-scale cooking video dataset designed to advance long-form narrative generation in the cooking domain. We validate the quality of our proposed dataset in terms of visual fidelity and textual caption accuracy using state-of-the-art Vision-Language Models (VLMs) and video generation models, respectively. We further introduce a Long Narrative Video Director to enhance both visual and semantic coherence in generated videos and emphasize the role of aligning visual embeddings to achieve improved overall video quality. Our method demonstrates substantial improvements in generating visually detailed and semantically aligned keyframes, supported by finetuning techniques that integrate text and image embeddings within the video generation process. Project page: https://videoauteur.github.io/