Vript: Un Video Vale Più di Mille Parole
Vript: A Video Is Worth Thousands of Words
June 10, 2024
Autori: Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao
cs.AI
Abstract
I progressi nell'apprendimento multimodale, in particolare nella comprensione e generazione di video, richiedono dataset video-testo di alta qualità per migliorare le prestazioni dei modelli. Vript affronta questa problematica con un corpus meticolosamente annotato di 12.000 video ad alta risoluzione, offrendo didascalie dettagliate, dense e simili a sceneggiature per oltre 420.000 clip. Ogni clip è accompagnata da una didascalia di circa 145 parole, oltre 10 volte più lunga rispetto alla maggior parte dei dataset video-testo. A differenza delle didascalie che documentano solo contenuti statici nei dataset precedenti, abbiamo migliorato la descrizione video trasformandola in una vera e propria sceneggiatura, documentando non solo il contenuto, ma anche le operazioni della telecamera, che includono i tipi di inquadratura (mezzo primo piano, primo piano, ecc.) e i movimenti della telecamera (panoramica, inclinazione, ecc.). Utilizzando Vript, esploriamo tre paradigmi di addestramento che allineano più testo alla modalità video piuttosto che a coppie clip-didascalia. Ciò ha portato a Vriptor, un modello di descrizione video dalle prestazioni eccellenti tra i modelli open-source, paragonabile a GPT-4V in termini di prestazioni. Vriptor è anche un modello potente in grado di generare didascalie dense e dettagliate per video lunghi in modo end-to-end. Inoltre, introduciamo Vript-Hard, un benchmark composto da tre compiti di comprensione video più impegnativi rispetto ai benchmark esistenti: Vript-HAL è il primo benchmark che valuta le allucinazioni di azioni e oggetti nei modelli linguistici video, Vript-RR combina il ragionamento con il recupero per risolvere l'ambiguità delle domande nei Q&A su video lunghi, e Vript-ERO è un nuovo compito per valutare la comprensione temporale degli eventi in video lunghi piuttosto che delle azioni in video brevi come nei lavori precedenti. Tutti i codici, i modelli e i dataset sono disponibili su https://github.com/mutonix/Vript.
English
Advancements in multimodal learning, particularly in video understanding and
generation, require high-quality video-text datasets for improved model
performance. Vript addresses this issue with a meticulously annotated corpus of
12K high-resolution videos, offering detailed, dense, and script-like captions
for over 420K clips. Each clip has a caption of ~145 words, which is over 10x
longer than most video-text datasets. Unlike captions only documenting static
content in previous datasets, we enhance video captioning to video scripting by
documenting not just the content, but also the camera operations, which include
the shot types (medium shot, close-up, etc) and camera movements (panning,
tilting, etc). By utilizing the Vript, we explore three training paradigms of
aligning more text with the video modality rather than clip-caption pairs. This
results in Vriptor, a top-performing video captioning model among open-source
models, comparable to GPT-4V in performance. Vriptor is also a powerful model
capable of end-to-end generation of dense and detailed captions for long
videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three
video understanding tasks that are more challenging than existing benchmarks:
Vript-HAL is the first benchmark evaluating action and object hallucinations in
video LLMs, Vript-RR combines reasoning with retrieval resolving question
ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the
temporal understanding of events in long videos rather than actions in short
videos in previous works. All code, models, and datasets are available in
https://github.com/mutonix/Vript.