ShareGPT4Video: Mejorando la comprensión y generación de videos con subtítulos de mayor calidad

Resumen

Presentamos la serie ShareGPT4Video, con el objetivo de facilitar la comprensión de videos en modelos grandes de lenguaje-video (LVLMs) y la generación de videos en modelos de texto-a-video (T2VMs) mediante subtítulos densos y precisos. La serie consta de: 1) ShareGPT4Video, 40K subtítulos densos anotados por GPT4V de videos de diversas longitudes y fuentes, desarrollados mediante una estrategia cuidadosamente diseñada de filtrado y anotación de datos. 2) ShareCaptioner-Video, un modelo de subtitulado eficiente y capaz para videos arbitrarios, con 4.8M videos de alta calidad estética anotados por él. 3) ShareGPT4Video-8B, un LVLM simple pero sobresaliente que alcanzó un rendimiento de vanguardia en tres benchmarks avanzados de video. Para lograrlo, dejando de lado los costosos y no escalables anotadores humanos, descubrimos que usar GPT4V para subtitular videos con una estrategia de entrada de múltiples fotogramas o concatenación de fotogramas conduce a resultados menos detallados y, a veces, temporalmente confusos. Argumentamos que el desafío de diseñar una estrategia de subtitulado de video de alta calidad radica en tres aspectos: 1) Comprensión precisa del cambio temporal entre fotogramas. 2) Descripción detallada del contenido intra-fotograma. 3) Escalabilidad del número de fotogramas para videos de longitud arbitraria. Para ello, diseñamos meticulosamente una estrategia de subtitulado de video diferencial, que es estable, escalable y eficiente para generar subtítulos para videos con resolución, proporciones y longitud arbitrarias. Basándonos en ella, construimos ShareGPT4Video, que contiene 40K videos de alta calidad que abarcan una amplia gama de categorías, y los subtítulos resultantes incluyen un rico conocimiento del mundo, atributos de objetos, movimientos de cámara y, crucialmente, descripciones temporales detalladas y precisas de eventos. Basándonos en ShareGPT4Video, desarrollamos además ShareCaptioner-Video, un subtitulador superior capaz de generar eficientemente subtítulos de alta calidad para videos arbitrarios...

English

We present the ShareGPT4Video series, aiming to facilitate the video understanding of large video-language models (LVLMs) and the video generation of text-to-video models (T2VMs) via dense and precise captions. The series comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with various lengths and sources, developed through carefully designed data filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that reached SOTA performance on three advancing video benchmarks. To achieve this, taking aside the non-scalable costly human annotators, we find using GPT4V to caption video with a naive multi-frame or frame-concatenation input strategy leads to less detailed and sometimes temporal-confused results. We argue the challenge of designing a high-quality video captioning strategy lies in three aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame detailed content description. 3) Frame-number scalability for arbitrary-length videos. To this end, we meticulously designed a differential video captioning strategy, which is stable, scalable, and efficient for generating captions for videos with arbitrary resolution, aspect ratios, and length. Based on it, we construct ShareGPT4Video, which contains 40K high-quality videos spanning a wide range of categories, and the resulting captions encompass rich world knowledge, object attributes, camera movements, and crucially, detailed and precise temporal descriptions of events. Based on ShareGPT4Video, we further develop ShareCaptioner-Video, a superior captioner capable of efficiently generating high-quality captions for arbitrary videos...

ShareGPT4Video: Mejorando la comprensión y generación de videos con subtítulos de mayor calidad

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

Resumen

Support