ChatPaper.aiChatPaper

Vript: Een Video Is Waardevoller Dan Duizend Woorden

Vript: A Video Is Worth Thousands of Words

June 10, 2024
Auteurs: Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao
cs.AI

Samenvatting

Vooruitgang in multimodaal leren, met name op het gebied van videobegrip en -generatie, vereist hoogwaardige video-tekst datasets voor verbeterde modelprestaties. Vript lost dit probleem op met een zorgvuldig geannoteerd corpus van 12K hoogwaardige video's, dat gedetailleerde, dichte en scriptachtige bijschriften biedt voor meer dan 420K clips. Elke clip heeft een bijschrift van ~145 woorden, wat meer dan 10x langer is dan bij de meeste video-tekst datasets. In tegenstelling tot bijschriften die alleen statische inhoud documenteren in eerdere datasets, verbeteren wij videobijschriften tot videoscripting door niet alleen de inhoud te documenteren, maar ook de camerabewerkingen, waaronder de shottypes (medium shot, close-up, etc.) en camerabewegingen (panorama, tilt, etc.). Door gebruik te maken van Vript, verkennen we drie trainingsparadigma's voor het afstemmen van meer tekst op de videomodaliteit in plaats van clip-bijschriftparen. Dit resulteert in Vriptor, een toppresterend videobijschriftmodel onder de open-source modellen, vergelijkbaar in prestaties met GPT-4V. Vriptor is ook een krachtig model dat in staat is tot end-to-end generatie van dichte en gedetailleerde bijschriften voor lange video's. Bovendien introduceren we Vript-Hard, een benchmark bestaande uit drie videobegriptaken die uitdagender zijn dan bestaande benchmarks: Vript-HAL is de eerste benchmark die actie- en objecthallucinaties in video-LLM's evalueert, Vript-RR combineert redeneren met retrieval om vraagambiguïteit op te lossen in lange-video QA's, en Vript-ERO is een nieuwe taak om het temporele begrip van gebeurtenissen in lange video's te evalueren in plaats van acties in korte video's zoals in eerdere werken. Alle code, modellen en datasets zijn beschikbaar op https://github.com/mutonix/Vript.
English
Advancements in multimodal learning, particularly in video understanding and generation, require high-quality video-text datasets for improved model performance. Vript addresses this issue with a meticulously annotated corpus of 12K high-resolution videos, offering detailed, dense, and script-like captions for over 420K clips. Each clip has a caption of ~145 words, which is over 10x longer than most video-text datasets. Unlike captions only documenting static content in previous datasets, we enhance video captioning to video scripting by documenting not just the content, but also the camera operations, which include the shot types (medium shot, close-up, etc) and camera movements (panning, tilting, etc). By utilizing the Vript, we explore three training paradigms of aligning more text with the video modality rather than clip-caption pairs. This results in Vriptor, a top-performing video captioning model among open-source models, comparable to GPT-4V in performance. Vriptor is also a powerful model capable of end-to-end generation of dense and detailed captions for long videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three video understanding tasks that are more challenging than existing benchmarks: Vript-HAL is the first benchmark evaluating action and object hallucinations in video LLMs, Vript-RR combines reasoning with retrieval resolving question ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the temporal understanding of events in long videos rather than actions in short videos in previous works. All code, models, and datasets are available in https://github.com/mutonix/Vript.
PDF290December 8, 2024