ShareGPT4Video: Migliorare la comprensione e la generazione di video con didascalie più efficaci
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
June 6, 2024
Autori: Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang
cs.AI
Abstract
Presentiamo la serie ShareGPT4Video, con l'obiettivo di facilitare la comprensione video dei grandi modelli video-linguistici (LVLM) e la generazione video dei modelli testo-video (T2VM) attraverso descrizioni dense e precise. La serie comprende: 1) ShareGPT4Video, 40K annotazioni dense di video di varie lunghezze e fonti realizzate con GPT4V, sviluppate attraverso una strategia di filtraggio e annotazione dei dati attentamente progettata. 2) ShareCaptioner-Video, un modello di descrizione efficiente e capace per video arbitrari, con 4.8M video di alta qualità estetica annotati da esso. 3) ShareGPT4Video-8B, un LVLM semplice ma eccellente che ha raggiunto prestazioni SOTA su tre benchmark video avanzati. Per raggiungere questo obiettivo, escludendo gli annotatori umani costosi e non scalabili, abbiamo scoperto che l'uso di GPT4V per descrivere video con una strategia di input multi-frame o concatenazione di frame ingenua porta a risultati meno dettagliati e talvolta temporalmente confusi. Sosteniamo che la sfida di progettare una strategia di descrizione video di alta qualità risieda in tre aspetti: 1) Comprensione precisa dei cambiamenti temporali inter-frame. 2) Descrizione dettagliata del contenuto intra-frame. 3) Scalabilità del numero di frame per video di lunghezza arbitraria. A tal fine, abbiamo progettato meticolosamente una strategia di descrizione video differenziale, che è stabile, scalabile ed efficiente per generare descrizioni per video con risoluzione, proporzioni e lunghezza arbitrarie. Sulla base di essa, costruiamo ShareGPT4Video, che contiene 40K video di alta qualità che coprono un'ampia gamma di categorie, e le descrizioni risultanti comprendono una ricca conoscenza del mondo, attributi degli oggetti, movimenti della fotocamera e, crucialmente, descrizioni temporali dettagliate e precise degli eventi. Basandoci su ShareGPT4Video, sviluppiamo ulteriormente ShareCaptioner-Video, un descrittore superiore in grado di generare in modo efficiente descrizioni di alta qualità per video arbitrari...
English
We present the ShareGPT4Video series, aiming to facilitate the video
understanding of large video-language models (LVLMs) and the video generation
of text-to-video models (T2VMs) via dense and precise captions. The series
comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with
various lengths and sources, developed through carefully designed data
filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and
capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic
videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that
reached SOTA performance on three advancing video benchmarks. To achieve this,
taking aside the non-scalable costly human annotators, we find using GPT4V to
caption video with a naive multi-frame or frame-concatenation input strategy
leads to less detailed and sometimes temporal-confused results. We argue the
challenge of designing a high-quality video captioning strategy lies in three
aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame
detailed content description. 3) Frame-number scalability for arbitrary-length
videos. To this end, we meticulously designed a differential video captioning
strategy, which is stable, scalable, and efficient for generating captions for
videos with arbitrary resolution, aspect ratios, and length. Based on it, we
construct ShareGPT4Video, which contains 40K high-quality videos spanning a
wide range of categories, and the resulting captions encompass rich world
knowledge, object attributes, camera movements, and crucially, detailed and
precise temporal descriptions of events. Based on ShareGPT4Video, we further
develop ShareCaptioner-Video, a superior captioner capable of efficiently
generating high-quality captions for arbitrary videos...