VideoAuteur: Hacia la Generación de Videos con Narrativas Largas
VideoAuteur: Towards Long Narrative Video Generation
January 10, 2025
Autores: Junfei Xiao, Feng Cheng, Lu Qi, Liangke Gui, Jiepeng Cen, Zhibei Ma, Alan Yuille, Lu Jiang
cs.AI
Resumen
Los modelos recientes de generación de video han mostrado resultados prometedores en la producción de clips de video de alta calidad que duran varios segundos. Sin embargo, estos modelos enfrentan desafíos al generar secuencias largas que transmitan eventos claros e informativos, lo que limita su capacidad para respaldar narraciones coherentes. En este documento, presentamos un conjunto de datos de video de cocina a gran escala diseñado para avanzar en la generación de narrativas de larga duración en el ámbito culinario. Validamos la calidad de nuestro conjunto de datos propuesto en cuanto a fidelidad visual y precisión de subtítulos textuales utilizando Modelos Visión-Lenguaje (VLM) de última generación y modelos de generación de video, respectivamente. Además, introducimos un Director de Video Narrativo Largo para mejorar tanto la coherencia visual como semántica en los videos generados y enfatizamos el papel de alinear incrustaciones visuales para lograr una calidad de video general mejorada. Nuestro método demuestra mejoras sustanciales en la generación de fotogramas clave visualmente detallados y semánticamente alineados, respaldados por técnicas de ajuste fino que integran incrustaciones de texto e imagen dentro del proceso de generación de video. Página del proyecto: https://videoauteur.github.io/
English
Recent video generation models have shown promising results in producing
high-quality video clips lasting several seconds. However, these models face
challenges in generating long sequences that convey clear and informative
events, limiting their ability to support coherent narrations. In this paper,
we present a large-scale cooking video dataset designed to advance long-form
narrative generation in the cooking domain. We validate the quality of our
proposed dataset in terms of visual fidelity and textual caption accuracy using
state-of-the-art Vision-Language Models (VLMs) and video generation models,
respectively. We further introduce a Long Narrative Video Director to enhance
both visual and semantic coherence in generated videos and emphasize the role
of aligning visual embeddings to achieve improved overall video quality. Our
method demonstrates substantial improvements in generating visually detailed
and semantically aligned keyframes, supported by finetuning techniques that
integrate text and image embeddings within the video generation process.
Project page: https://videoauteur.github.io/Summary
AI-Generated Summary