ChatPaper.aiChatPaper

ShareGPT4Video : Amélioration de la compréhension et de la génération vidéo grâce à de meilleures légendes

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

June 6, 2024
Auteurs: Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang
cs.AI

Résumé

Nous présentons la série ShareGPT4Video, visant à faciliter la compréhension vidéo des grands modèles vidéo-langage (LVLMs) et la génération vidéo des modèles texte-à-vidéo (T2VMs) via des descriptions denses et précises. La série comprend : 1) ShareGPT4Video, 40 000 descriptions denses annotées par GPT4V pour des vidéos de diverses longueurs et sources, développées grâce à une stratégie soigneusement conçue de filtrage et d'annotation des données. 2) ShareCaptioner-Video, un modèle de description efficace et performant pour des vidéos arbitraires, avec 4,8 millions de vidéos esthétiques de haute qualité annotées par celui-ci. 3) ShareGPT4Video-8B, un LVLM simple mais exceptionnel qui a atteint des performances de pointe sur trois benchmarks vidéo en progression. Pour y parvenir, en écartant les annotateurs humains coûteux et non scalables, nous avons constaté que l'utilisation de GPT4V pour décrire des vidéos avec une stratégie d'entrée multi-images ou de concaténation d'images conduit à des résultats moins détaillés et parfois temporellement confus. Nous soutenons que le défi de concevoir une stratégie de description vidéo de haute qualité réside dans trois aspects : 1) La compréhension précise des changements temporels inter-images. 2) La description détaillée du contenu intra-image. 3) La scalabilité du nombre d'images pour des vidéos de longueur arbitraire. À cette fin, nous avons méticuleusement conçu une stratégie de description vidéo différentielle, stable, scalable et efficace pour générer des descriptions pour des vidéos de résolution, ratio d'aspect et longueur arbitraires. Sur cette base, nous avons construit ShareGPT4Video, qui contient 40 000 vidéos de haute qualité couvrant un large éventail de catégories, et les descriptions résultantes englobent une riche connaissance du monde, les attributs des objets, les mouvements de caméra, et surtout, des descriptions temporelles détaillées et précises des événements. Sur la base de ShareGPT4Video, nous avons ensuite développé ShareCaptioner-Video, un descripteur supérieur capable de générer efficacement des descriptions de haute qualité pour des vidéos arbitraires...
English
We present the ShareGPT4Video series, aiming to facilitate the video understanding of large video-language models (LVLMs) and the video generation of text-to-video models (T2VMs) via dense and precise captions. The series comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with various lengths and sources, developed through carefully designed data filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that reached SOTA performance on three advancing video benchmarks. To achieve this, taking aside the non-scalable costly human annotators, we find using GPT4V to caption video with a naive multi-frame or frame-concatenation input strategy leads to less detailed and sometimes temporal-confused results. We argue the challenge of designing a high-quality video captioning strategy lies in three aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame detailed content description. 3) Frame-number scalability for arbitrary-length videos. To this end, we meticulously designed a differential video captioning strategy, which is stable, scalable, and efficient for generating captions for videos with arbitrary resolution, aspect ratios, and length. Based on it, we construct ShareGPT4Video, which contains 40K high-quality videos spanning a wide range of categories, and the resulting captions encompass rich world knowledge, object attributes, camera movements, and crucially, detailed and precise temporal descriptions of events. Based on ShareGPT4Video, we further develop ShareCaptioner-Video, a superior captioner capable of efficiently generating high-quality captions for arbitrary videos...

Summary

AI-Generated Summary

PDF764December 8, 2024