Vript: Een Video Is Waardevoller Dan Duizend Woorden
Vript: A Video Is Worth Thousands of Words
June 10, 2024
Auteurs: Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao
cs.AI
Samenvatting
Vooruitgang in multimodaal leren, met name op het gebied van videobegrip en -generatie, vereist hoogwaardige video-tekst datasets voor verbeterde modelprestaties. Vript lost dit probleem op met een zorgvuldig geannoteerd corpus van 12K hoogwaardige video's, dat gedetailleerde, dichte en scriptachtige bijschriften biedt voor meer dan 420K clips. Elke clip heeft een bijschrift van ~145 woorden, wat meer dan 10x langer is dan bij de meeste video-tekst datasets. In tegenstelling tot bijschriften die alleen statische inhoud documenteren in eerdere datasets, verbeteren wij videobijschriften tot videoscripting door niet alleen de inhoud te documenteren, maar ook de camerabewerkingen, waaronder de shottypes (medium shot, close-up, etc.) en camerabewegingen (panorama, tilt, etc.). Door gebruik te maken van Vript, verkennen we drie trainingsparadigma's voor het afstemmen van meer tekst op de videomodaliteit in plaats van clip-bijschriftparen. Dit resulteert in Vriptor, een toppresterend videobijschriftmodel onder de open-source modellen, vergelijkbaar in prestaties met GPT-4V. Vriptor is ook een krachtig model dat in staat is tot end-to-end generatie van dichte en gedetailleerde bijschriften voor lange video's. Bovendien introduceren we Vript-Hard, een benchmark bestaande uit drie videobegriptaken die uitdagender zijn dan bestaande benchmarks: Vript-HAL is de eerste benchmark die actie- en objecthallucinaties in video-LLM's evalueert, Vript-RR combineert redeneren met retrieval om vraagambiguïteit op te lossen in lange-video QA's, en Vript-ERO is een nieuwe taak om het temporele begrip van gebeurtenissen in lange video's te evalueren in plaats van acties in korte video's zoals in eerdere werken. Alle code, modellen en datasets zijn beschikbaar op https://github.com/mutonix/Vript.
English
Advancements in multimodal learning, particularly in video understanding and
generation, require high-quality video-text datasets for improved model
performance. Vript addresses this issue with a meticulously annotated corpus of
12K high-resolution videos, offering detailed, dense, and script-like captions
for over 420K clips. Each clip has a caption of ~145 words, which is over 10x
longer than most video-text datasets. Unlike captions only documenting static
content in previous datasets, we enhance video captioning to video scripting by
documenting not just the content, but also the camera operations, which include
the shot types (medium shot, close-up, etc) and camera movements (panning,
tilting, etc). By utilizing the Vript, we explore three training paradigms of
aligning more text with the video modality rather than clip-caption pairs. This
results in Vriptor, a top-performing video captioning model among open-source
models, comparable to GPT-4V in performance. Vriptor is also a powerful model
capable of end-to-end generation of dense and detailed captions for long
videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three
video understanding tasks that are more challenging than existing benchmarks:
Vript-HAL is the first benchmark evaluating action and object hallucinations in
video LLMs, Vript-RR combines reasoning with retrieval resolving question
ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the
temporal understanding of events in long videos rather than actions in short
videos in previous works. All code, models, and datasets are available in
https://github.com/mutonix/Vript.