VideoAuteur: Hacia la Generación de Videos con Narrativas Largas

Resumen

Los modelos recientes de generación de video han mostrado resultados prometedores en la producción de clips de video de alta calidad que duran varios segundos. Sin embargo, estos modelos enfrentan desafíos al generar secuencias largas que transmitan eventos claros e informativos, lo que limita su capacidad para respaldar narraciones coherentes. En este documento, presentamos un conjunto de datos de video de cocina a gran escala diseñado para avanzar en la generación de narrativas de larga duración en el ámbito culinario. Validamos la calidad de nuestro conjunto de datos propuesto en cuanto a fidelidad visual y precisión de subtítulos textuales utilizando Modelos Visión-Lenguaje (VLM) de última generación y modelos de generación de video, respectivamente. Además, introducimos un Director de Video Narrativo Largo para mejorar tanto la coherencia visual como semántica en los videos generados y enfatizamos el papel de alinear incrustaciones visuales para lograr una calidad de video general mejorada. Nuestro método demuestra mejoras sustanciales en la generación de fotogramas clave visualmente detallados y semánticamente alineados, respaldados por técnicas de ajuste fino que integran incrustaciones de texto e imagen dentro del proceso de generación de video. Página del proyecto: https://videoauteur.github.io/

English

Recent video generation models have shown promising results in producing high-quality video clips lasting several seconds. However, these models face challenges in generating long sequences that convey clear and informative events, limiting their ability to support coherent narrations. In this paper, we present a large-scale cooking video dataset designed to advance long-form narrative generation in the cooking domain. We validate the quality of our proposed dataset in terms of visual fidelity and textual caption accuracy using state-of-the-art Vision-Language Models (VLMs) and video generation models, respectively. We further introduce a Long Narrative Video Director to enhance both visual and semantic coherence in generated videos and emphasize the role of aligning visual embeddings to achieve improved overall video quality. Our method demonstrates substantial improvements in generating visually detailed and semantically aligned keyframes, supported by finetuning techniques that integrate text and image embeddings within the video generation process. Project page: https://videoauteur.github.io/