ShareGPT4Video: Melhorando a Compreensão e Geração de Vídeos com Legendas de Maior Qualidade
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
June 6, 2024
Autores: Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang
cs.AI
Resumo
Apresentamos a série ShareGPT4Video, com o objetivo de facilitar a compreensão de vídeos por grandes modelos de linguagem e vídeo (LVLMs) e a geração de vídeos por modelos de texto para vídeo (T2VMs) por meio de legendas densas e precisas. A série compreende: 1) ShareGPT4Video, 40 mil legendas densas anotadas pelo GPT4V para vídeos de diversos comprimentos e origens, desenvolvidas por meio de uma estratégia cuidadosamente projetada de filtragem e anotação de dados. 2) ShareCaptioner-Video, um modelo de legendagem eficiente e capaz para vídeos arbitrários, com 4,8 milhões de vídeos de alta qualidade e estética anotados por ele. 3) ShareGPT4Video-8B, um LVLM simples, porém excelente, que alcançou desempenho de estado da arte (SOTA) em três benchmarks avançados de vídeo. Para isso, deixando de lado os anotadores humanos caros e não escaláveis, descobrimos que usar o GPT4V para legendas de vídeo com uma estratégia ingênua de entrada de múltiplos quadros ou concatenação de quadros resulta em descrições menos detalhadas e, às vezes, temporalmente confusas. Argumentamos que o desafio de projetar uma estratégia de legendagem de vídeo de alta qualidade reside em três aspectos: 1) Compreensão precisa das mudanças temporais entre quadros. 2) Descrição detalhada do conteúdo intraquadro. 3) Escalabilidade do número de quadros para vídeos de comprimento arbitrário. Para isso, projetamos meticulosamente uma estratégia de legendagem de vídeo diferencial, que é estável, escalável e eficiente para gerar legendas para vídeos com resolução, proporções e duração arbitrárias. Com base nela, construímos o ShareGPT4Video, que contém 40 mil vídeos de alta qualidade abrangendo uma ampla gama de categorias, e as legendas resultantes englobam conhecimento do mundo, atributos de objetos, movimentos de câmera e, crucialmente, descrições temporais detalhadas e precisas dos eventos. Com base no ShareGPT4Video, desenvolvemos ainda o ShareCaptioner-Video, um legendador superior capaz de gerar eficientemente legendas de alta qualidade para vídeos arbitrários...
English
We present the ShareGPT4Video series, aiming to facilitate the video
understanding of large video-language models (LVLMs) and the video generation
of text-to-video models (T2VMs) via dense and precise captions. The series
comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with
various lengths and sources, developed through carefully designed data
filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and
capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic
videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that
reached SOTA performance on three advancing video benchmarks. To achieve this,
taking aside the non-scalable costly human annotators, we find using GPT4V to
caption video with a naive multi-frame or frame-concatenation input strategy
leads to less detailed and sometimes temporal-confused results. We argue the
challenge of designing a high-quality video captioning strategy lies in three
aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame
detailed content description. 3) Frame-number scalability for arbitrary-length
videos. To this end, we meticulously designed a differential video captioning
strategy, which is stable, scalable, and efficient for generating captions for
videos with arbitrary resolution, aspect ratios, and length. Based on it, we
construct ShareGPT4Video, which contains 40K high-quality videos spanning a
wide range of categories, and the resulting captions encompass rich world
knowledge, object attributes, camera movements, and crucially, detailed and
precise temporal descriptions of events. Based on ShareGPT4Video, we further
develop ShareCaptioner-Video, a superior captioner capable of efficiently
generating high-quality captions for arbitrary videos...