ShareGPT4Video: Mejorando la comprensión y generación de videos con subtítulos de mayor calidadShareGPT4Video: Improving Video Understanding and Generation with Better
Captions
Presentamos la serie ShareGPT4Video, con el objetivo de facilitar la comprensión de videos en modelos grandes de lenguaje-video (LVLMs) y la generación de videos en modelos de texto-a-video (T2VMs) mediante subtítulos densos y precisos. La serie consta de: 1) ShareGPT4Video, 40K subtítulos densos anotados por GPT4V de videos de diversas longitudes y fuentes, desarrollados mediante una estrategia cuidadosamente diseñada de filtrado y anotación de datos. 2) ShareCaptioner-Video, un modelo de subtitulado eficiente y capaz para videos arbitrarios, con 4.8M videos de alta calidad estética anotados por él. 3) ShareGPT4Video-8B, un LVLM simple pero sobresaliente que alcanzó un rendimiento de vanguardia en tres benchmarks avanzados de video. Para lograrlo, dejando de lado los costosos y no escalables anotadores humanos, descubrimos que usar GPT4V para subtitular videos con una estrategia de entrada de múltiples fotogramas o concatenación de fotogramas conduce a resultados menos detallados y, a veces, temporalmente confusos. Argumentamos que el desafío de diseñar una estrategia de subtitulado de video de alta calidad radica en tres aspectos: 1) Comprensión precisa del cambio temporal entre fotogramas. 2) Descripción detallada del contenido intra-fotograma. 3) Escalabilidad del número de fotogramas para videos de longitud arbitraria. Para ello, diseñamos meticulosamente una estrategia de subtitulado de video diferencial, que es estable, escalable y eficiente para generar subtítulos para videos con resolución, proporciones y longitud arbitrarias. Basándonos en ella, construimos ShareGPT4Video, que contiene 40K videos de alta calidad que abarcan una amplia gama de categorías, y los subtítulos resultantes incluyen un rico conocimiento del mundo, atributos de objetos, movimientos de cámara y, crucialmente, descripciones temporales detalladas y precisas de eventos. Basándonos en ShareGPT4Video, desarrollamos además ShareCaptioner-Video, un subtitulador superior capaz de generar eficientemente subtítulos de alta calidad para videos arbitrarios...