MovieLLM: Mejorando la comprensión de videos largos con películas generadas por IA
MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies
March 3, 2024
Autores: Zhende Song, Chenchen Wang, Jiamu Sheng, Chi Zhang, Gang Yu, Jiayuan Fan, Tao Chen
cs.AI
Resumen
El desarrollo de modelos multimodales ha marcado un avance significativo en la forma en que las máquinas comprenden los videos. Estos modelos han mostrado potencial para analizar clips de video cortos. Sin embargo, cuando se trata de formatos más largos, como películas, a menudo no alcanzan el nivel esperado. Los principales obstáculos son la falta de datos de video diversos y de alta calidad, así como el trabajo intensivo requerido para recopilar o anotar dichos datos. Ante estos desafíos, proponemos MovieLLM, un marco novedoso diseñado para crear datos sintéticos de alta calidad para videos largos. Este marco aprovecha el poder de GPT-4 y modelos de texto a imagen para generar guiones detallados y visuales correspondientes. Nuestro enfoque destaca por su flexibilidad y escalabilidad, convirtiéndolo en una alternativa superior a los métodos tradicionales de recopilación de datos. Nuestros extensos experimentos validan que los datos producidos por MovieLLM mejoran significativamente el rendimiento de los modelos multimodales en la comprensión de narrativas de video complejas, superando las limitaciones de los conjuntos de datos existentes en cuanto a escasez y sesgo.
English
The development of multimodal models has marked a significant step forward in
how machines understand videos. These models have shown promise in analyzing
short video clips. However, when it comes to longer formats like movies, they
often fall short. The main hurdles are the lack of high-quality, diverse video
data and the intensive work required to collect or annotate such data. In the
face of these challenges, we propose MovieLLM, a novel framework designed to
create synthetic, high-quality data for long videos. This framework leverages
the power of GPT-4 and text-to-image models to generate detailed scripts and
corresponding visuals. Our approach stands out for its flexibility and
scalability, making it a superior alternative to traditional data collection
methods. Our extensive experiments validate that the data produced by MovieLLM
significantly improves the performance of multimodal models in understanding
complex video narratives, overcoming the limitations of existing datasets
regarding scarcity and bias.