ShareGPT4Video: Mejorando la comprensión y generación de videos con subtítulos de mayor calidad
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
June 6, 2024
Autores: Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang
cs.AI
Resumen
Presentamos la serie ShareGPT4Video, con el objetivo de facilitar la comprensión de videos en modelos grandes de lenguaje-video (LVLMs) y la generación de videos en modelos de texto-a-video (T2VMs) mediante subtítulos densos y precisos. La serie consta de: 1) ShareGPT4Video, 40K subtítulos densos anotados por GPT4V de videos de diversas longitudes y fuentes, desarrollados mediante una estrategia cuidadosamente diseñada de filtrado y anotación de datos. 2) ShareCaptioner-Video, un modelo de subtitulado eficiente y capaz para videos arbitrarios, con 4.8M videos de alta calidad estética anotados por él. 3) ShareGPT4Video-8B, un LVLM simple pero sobresaliente que alcanzó un rendimiento de vanguardia en tres benchmarks avanzados de video. Para lograrlo, dejando de lado los costosos y no escalables anotadores humanos, descubrimos que usar GPT4V para subtitular videos con una estrategia de entrada de múltiples fotogramas o concatenación de fotogramas conduce a resultados menos detallados y, a veces, temporalmente confusos. Argumentamos que el desafío de diseñar una estrategia de subtitulado de video de alta calidad radica en tres aspectos: 1) Comprensión precisa del cambio temporal entre fotogramas. 2) Descripción detallada del contenido intra-fotograma. 3) Escalabilidad del número de fotogramas para videos de longitud arbitraria. Para ello, diseñamos meticulosamente una estrategia de subtitulado de video diferencial, que es estable, escalable y eficiente para generar subtítulos para videos con resolución, proporciones y longitud arbitrarias. Basándonos en ella, construimos ShareGPT4Video, que contiene 40K videos de alta calidad que abarcan una amplia gama de categorías, y los subtítulos resultantes incluyen un rico conocimiento del mundo, atributos de objetos, movimientos de cámara y, crucialmente, descripciones temporales detalladas y precisas de eventos. Basándonos en ShareGPT4Video, desarrollamos además ShareCaptioner-Video, un subtitulador superior capaz de generar eficientemente subtítulos de alta calidad para videos arbitrarios...
English
We present the ShareGPT4Video series, aiming to facilitate the video
understanding of large video-language models (LVLMs) and the video generation
of text-to-video models (T2VMs) via dense and precise captions. The series
comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with
various lengths and sources, developed through carefully designed data
filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and
capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic
videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that
reached SOTA performance on three advancing video benchmarks. To achieve this,
taking aside the non-scalable costly human annotators, we find using GPT4V to
caption video with a naive multi-frame or frame-concatenation input strategy
leads to less detailed and sometimes temporal-confused results. We argue the
challenge of designing a high-quality video captioning strategy lies in three
aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame
detailed content description. 3) Frame-number scalability for arbitrary-length
videos. To this end, we meticulously designed a differential video captioning
strategy, which is stable, scalable, and efficient for generating captions for
videos with arbitrary resolution, aspect ratios, and length. Based on it, we
construct ShareGPT4Video, which contains 40K high-quality videos spanning a
wide range of categories, and the resulting captions encompass rich world
knowledge, object attributes, camera movements, and crucially, detailed and
precise temporal descriptions of events. Based on ShareGPT4Video, we further
develop ShareCaptioner-Video, a superior captioner capable of efficiently
generating high-quality captions for arbitrary videos...Summary
AI-Generated Summary