ShareGPT4Video : Amélioration de la compréhension et de la génération vidéo grâce à de meilleures légendesShareGPT4Video: Improving Video Understanding and Generation with Better
Captions
Nous présentons la série ShareGPT4Video, visant à faciliter la compréhension vidéo des grands modèles vidéo-langage (LVLMs) et la génération vidéo des modèles texte-à-vidéo (T2VMs) via des descriptions denses et précises. La série comprend : 1) ShareGPT4Video, 40 000 descriptions denses annotées par GPT4V pour des vidéos de diverses longueurs et sources, développées grâce à une stratégie soigneusement conçue de filtrage et d'annotation des données. 2) ShareCaptioner-Video, un modèle de description efficace et performant pour des vidéos arbitraires, avec 4,8 millions de vidéos esthétiques de haute qualité annotées par celui-ci. 3) ShareGPT4Video-8B, un LVLM simple mais exceptionnel qui a atteint des performances de pointe sur trois benchmarks vidéo en progression. Pour y parvenir, en écartant les annotateurs humains coûteux et non scalables, nous avons constaté que l'utilisation de GPT4V pour décrire des vidéos avec une stratégie d'entrée multi-images ou de concaténation d'images conduit à des résultats moins détaillés et parfois temporellement confus. Nous soutenons que le défi de concevoir une stratégie de description vidéo de haute qualité réside dans trois aspects : 1) La compréhension précise des changements temporels inter-images. 2) La description détaillée du contenu intra-image. 3) La scalabilité du nombre d'images pour des vidéos de longueur arbitraire. À cette fin, nous avons méticuleusement conçu une stratégie de description vidéo différentielle, stable, scalable et efficace pour générer des descriptions pour des vidéos de résolution, ratio d'aspect et longueur arbitraires. Sur cette base, nous avons construit ShareGPT4Video, qui contient 40 000 vidéos de haute qualité couvrant un large éventail de catégories, et les descriptions résultantes englobent une riche connaissance du monde, les attributs des objets, les mouvements de caméra, et surtout, des descriptions temporelles détaillées et précises des événements. Sur la base de ShareGPT4Video, nous avons ensuite développé ShareCaptioner-Video, un descripteur supérieur capable de générer efficacement des descriptions de haute qualité pour des vidéos arbitraires...