ShareGPT4Video: Verbetering van Video-begrip en -generatie met Betere Bijschriften
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
June 6, 2024
Auteurs: Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang
cs.AI
Samenvatting
We presenteren de ShareGPT4Video-serie, die tot doel heeft het video-begrip van grote video-taalmodellen (LVLMs) en de videogeneratie van tekst-naar-videomodellen (T2VMs) te vergemakkelijken via dichte en precieze bijschriften. De serie omvat: 1) ShareGPT4Video, 40K GPT4V-geannoteerde dichte bijschriften van video's met verschillende lengtes en bronnen, ontwikkeld door middel van een zorgvuldig ontworpen datafilterings- en annotatiestrategie. 2) ShareCaptioner-Video, een efficiënt en capabel bijschriftmodel voor willekeurige video's, met 4,8M hoogwaardige esthetische video's die erdoor zijn geannoteerd. 3) ShareGPT4Video-8B, een eenvoudig maar uitstekend LVLM dat state-of-the-art prestaties bereikte op drie voortschrijdende videobenchmarks. Om dit te bereiken, stellen we vast dat het gebruik van GPT4V om video's van bijschriften te voorzien met een naïeve multi-frame of frame-concatenatie-invoerstrategie leidt tot minder gedetailleerde en soms temporeel verwarde resultaten, afgezien van de niet-schaalbare, kostbare menselijke annotators. Wij stellen dat de uitdaging van het ontwerpen van een hoogwaardige videobijschriftstrategie ligt in drie aspecten: 1) Inter-frame precies temporeel veranderingsbegrip. 2) Intra-frame gedetailleerde inhoudsbeschrijving. 3) Frame-nummer schaalbaarheid voor video's van willekeurige lengte. Hiertoe hebben we een differentiële videobijschriftstrategie zorgvuldig ontworpen, die stabiel, schaalbaar en efficiënt is voor het genereren van bijschriften voor video's met willekeurige resolutie, beeldverhoudingen en lengte. Op basis hiervan construeren we ShareGPT4Video, dat 40K hoogwaardige video's bevat die een breed scala aan categorieën bestrijken, en de resulterende bijschriften omvatten rijke wereldkennis, objectattributen, camerabewegingen en cruciaal, gedetailleerde en precieze temporele beschrijvingen van gebeurtenissen. Op basis van ShareGPT4Video ontwikkelen we verder ShareCaptioner-Video, een superieure bijschrijver die in staat is om efficiënt hoogwaardige bijschriften te genereren voor willekeurige video's...
English
We present the ShareGPT4Video series, aiming to facilitate the video
understanding of large video-language models (LVLMs) and the video generation
of text-to-video models (T2VMs) via dense and precise captions. The series
comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with
various lengths and sources, developed through carefully designed data
filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and
capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic
videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that
reached SOTA performance on three advancing video benchmarks. To achieve this,
taking aside the non-scalable costly human annotators, we find using GPT4V to
caption video with a naive multi-frame or frame-concatenation input strategy
leads to less detailed and sometimes temporal-confused results. We argue the
challenge of designing a high-quality video captioning strategy lies in three
aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame
detailed content description. 3) Frame-number scalability for arbitrary-length
videos. To this end, we meticulously designed a differential video captioning
strategy, which is stable, scalable, and efficient for generating captions for
videos with arbitrary resolution, aspect ratios, and length. Based on it, we
construct ShareGPT4Video, which contains 40K high-quality videos spanning a
wide range of categories, and the resulting captions encompass rich world
knowledge, object attributes, camera movements, and crucially, detailed and
precise temporal descriptions of events. Based on ShareGPT4Video, we further
develop ShareCaptioner-Video, a superior captioner capable of efficiently
generating high-quality captions for arbitrary videos...