Vript: Ein Video ist Tausende Worte wert.
Vript: A Video Is Worth Thousands of Words
June 10, 2024
Autoren: Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao
cs.AI
Zusammenfassung
Fortschritte im multimodalen Lernen, insbesondere im Bereich der Videoverarbeitung und -erzeugung, erfordern hochwertige Video-Text-Datensätze zur Verbesserung der Modellleistung. Vript begegnet diesem Problem mit einem sorgfältig annotierten Korpus von 12K hochauflösenden Videos, die detaillierte, dichte und skriptähnliche Untertitel für über 420K Clips bieten. Jeder Clip hat einen Untertitel von ~145 Wörtern, was über 10-mal länger ist als die meisten Video-Text-Datensätze. Im Gegensatz zu Untertiteln, die nur statische Inhalte in früheren Datensätzen dokumentieren, verbessern wir die Video-Untertitelung zu Video-Skripting, indem wir nicht nur den Inhalt, sondern auch die Kameraoperationen dokumentieren, einschließlich der Aufnahmetypen (mittlere Aufnahme, Nahaufnahme usw.) und Kamerabewegungen (Schwenken, Neigen usw.). Durch die Nutzung des Vript untersuchen wir drei Trainingsparadigmen, um mehr Text mit der Video-Modalität anstatt von Clip-Untertitel-Paaren abzustimmen. Dies führt zu Vriptor, einem leistungsstarken Video-Untertitelungsmodell unter Open-Source-Modellen, vergleichbar mit GPT-4V in der Leistung. Vriptor ist auch ein leistungsstarkes Modell, das in der Lage ist, dichte und detaillierte Untertitel für lange Videos end-to-end zu generieren. Darüber hinaus führen wir Vript-Hard ein, einen Benchmark, der aus drei Videoverständnis-Aufgaben besteht, die anspruchsvoller sind als bestehende Benchmarks: Vript-HAL ist der erste Benchmark, der Handlungs- und Objekthalluzinationen in Video-LLMs bewertet, Vript-RR kombiniert Schlussfolgerungen mit Abruf, um Frageambiguitäten in langen Video-Fragen und -Antworten zu lösen, und Vript-ERO ist eine neue Aufgabe zur Bewertung des zeitlichen Verständnisses von Ereignissen in langen Videos anstelle von Handlungen in kurzen Videos in früheren Arbeiten. Der gesamte Code, Modelle und Datensätze sind unter https://github.com/mutonix/Vript verfügbar.
English
Advancements in multimodal learning, particularly in video understanding and
generation, require high-quality video-text datasets for improved model
performance. Vript addresses this issue with a meticulously annotated corpus of
12K high-resolution videos, offering detailed, dense, and script-like captions
for over 420K clips. Each clip has a caption of ~145 words, which is over 10x
longer than most video-text datasets. Unlike captions only documenting static
content in previous datasets, we enhance video captioning to video scripting by
documenting not just the content, but also the camera operations, which include
the shot types (medium shot, close-up, etc) and camera movements (panning,
tilting, etc). By utilizing the Vript, we explore three training paradigms of
aligning more text with the video modality rather than clip-caption pairs. This
results in Vriptor, a top-performing video captioning model among open-source
models, comparable to GPT-4V in performance. Vriptor is also a powerful model
capable of end-to-end generation of dense and detailed captions for long
videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three
video understanding tasks that are more challenging than existing benchmarks:
Vript-HAL is the first benchmark evaluating action and object hallucinations in
video LLMs, Vript-RR combines reasoning with retrieval resolving question
ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the
temporal understanding of events in long videos rather than actions in short
videos in previous works. All code, models, and datasets are available in
https://github.com/mutonix/Vript.Summary
AI-Generated Summary