ShareGPT4Video: Migliorare la comprensione e la generazione di video con didascalie più efficaci

Abstract

Presentiamo la serie ShareGPT4Video, con l'obiettivo di facilitare la comprensione video dei grandi modelli video-linguistici (LVLM) e la generazione video dei modelli testo-video (T2VM) attraverso descrizioni dense e precise. La serie comprende: 1) ShareGPT4Video, 40K annotazioni dense di video di varie lunghezze e fonti realizzate con GPT4V, sviluppate attraverso una strategia di filtraggio e annotazione dei dati attentamente progettata. 2) ShareCaptioner-Video, un modello di descrizione efficiente e capace per video arbitrari, con 4.8M video di alta qualità estetica annotati da esso. 3) ShareGPT4Video-8B, un LVLM semplice ma eccellente che ha raggiunto prestazioni SOTA su tre benchmark video avanzati. Per raggiungere questo obiettivo, escludendo gli annotatori umani costosi e non scalabili, abbiamo scoperto che l'uso di GPT4V per descrivere video con una strategia di input multi-frame o concatenazione di frame ingenua porta a risultati meno dettagliati e talvolta temporalmente confusi. Sosteniamo che la sfida di progettare una strategia di descrizione video di alta qualità risieda in tre aspetti: 1) Comprensione precisa dei cambiamenti temporali inter-frame. 2) Descrizione dettagliata del contenuto intra-frame. 3) Scalabilità del numero di frame per video di lunghezza arbitraria. A tal fine, abbiamo progettato meticolosamente una strategia di descrizione video differenziale, che è stabile, scalabile ed efficiente per generare descrizioni per video con risoluzione, proporzioni e lunghezza arbitrarie. Sulla base di essa, costruiamo ShareGPT4Video, che contiene 40K video di alta qualità che coprono un'ampia gamma di categorie, e le descrizioni risultanti comprendono una ricca conoscenza del mondo, attributi degli oggetti, movimenti della fotocamera e, crucialmente, descrizioni temporali dettagliate e precise degli eventi. Basandoci su ShareGPT4Video, sviluppiamo ulteriormente ShareCaptioner-Video, un descrittore superiore in grado di generare in modo efficiente descrizioni di alta qualità per video arbitrari...

English

We present the ShareGPT4Video series, aiming to facilitate the video understanding of large video-language models (LVLMs) and the video generation of text-to-video models (T2VMs) via dense and precise captions. The series comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with various lengths and sources, developed through carefully designed data filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that reached SOTA performance on three advancing video benchmarks. To achieve this, taking aside the non-scalable costly human annotators, we find using GPT4V to caption video with a naive multi-frame or frame-concatenation input strategy leads to less detailed and sometimes temporal-confused results. We argue the challenge of designing a high-quality video captioning strategy lies in three aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame detailed content description. 3) Frame-number scalability for arbitrary-length videos. To this end, we meticulously designed a differential video captioning strategy, which is stable, scalable, and efficient for generating captions for videos with arbitrary resolution, aspect ratios, and length. Based on it, we construct ShareGPT4Video, which contains 40K high-quality videos spanning a wide range of categories, and the resulting captions encompass rich world knowledge, object attributes, camera movements, and crucially, detailed and precise temporal descriptions of events. Based on ShareGPT4Video, we further develop ShareCaptioner-Video, a superior captioner capable of efficiently generating high-quality captions for arbitrary videos...

ShareGPT4Video: Migliorare la comprensione e la generazione di video con didascalie più efficaci

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

Abstract

Support