ChatPaper.aiChatPaper

Vript: Un Video Vale Più di Mille Parole

Vript: A Video Is Worth Thousands of Words

June 10, 2024
Autori: Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao
cs.AI

Abstract

I progressi nell'apprendimento multimodale, in particolare nella comprensione e generazione di video, richiedono dataset video-testo di alta qualità per migliorare le prestazioni dei modelli. Vript affronta questa problematica con un corpus meticolosamente annotato di 12.000 video ad alta risoluzione, offrendo didascalie dettagliate, dense e simili a sceneggiature per oltre 420.000 clip. Ogni clip è accompagnata da una didascalia di circa 145 parole, oltre 10 volte più lunga rispetto alla maggior parte dei dataset video-testo. A differenza delle didascalie che documentano solo contenuti statici nei dataset precedenti, abbiamo migliorato la descrizione video trasformandola in una vera e propria sceneggiatura, documentando non solo il contenuto, ma anche le operazioni della telecamera, che includono i tipi di inquadratura (mezzo primo piano, primo piano, ecc.) e i movimenti della telecamera (panoramica, inclinazione, ecc.). Utilizzando Vript, esploriamo tre paradigmi di addestramento che allineano più testo alla modalità video piuttosto che a coppie clip-didascalia. Ciò ha portato a Vriptor, un modello di descrizione video dalle prestazioni eccellenti tra i modelli open-source, paragonabile a GPT-4V in termini di prestazioni. Vriptor è anche un modello potente in grado di generare didascalie dense e dettagliate per video lunghi in modo end-to-end. Inoltre, introduciamo Vript-Hard, un benchmark composto da tre compiti di comprensione video più impegnativi rispetto ai benchmark esistenti: Vript-HAL è il primo benchmark che valuta le allucinazioni di azioni e oggetti nei modelli linguistici video, Vript-RR combina il ragionamento con il recupero per risolvere l'ambiguità delle domande nei Q&A su video lunghi, e Vript-ERO è un nuovo compito per valutare la comprensione temporale degli eventi in video lunghi piuttosto che delle azioni in video brevi come nei lavori precedenti. Tutti i codici, i modelli e i dataset sono disponibili su https://github.com/mutonix/Vript.
English
Advancements in multimodal learning, particularly in video understanding and generation, require high-quality video-text datasets for improved model performance. Vript addresses this issue with a meticulously annotated corpus of 12K high-resolution videos, offering detailed, dense, and script-like captions for over 420K clips. Each clip has a caption of ~145 words, which is over 10x longer than most video-text datasets. Unlike captions only documenting static content in previous datasets, we enhance video captioning to video scripting by documenting not just the content, but also the camera operations, which include the shot types (medium shot, close-up, etc) and camera movements (panning, tilting, etc). By utilizing the Vript, we explore three training paradigms of aligning more text with the video modality rather than clip-caption pairs. This results in Vriptor, a top-performing video captioning model among open-source models, comparable to GPT-4V in performance. Vriptor is also a powerful model capable of end-to-end generation of dense and detailed captions for long videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three video understanding tasks that are more challenging than existing benchmarks: Vript-HAL is the first benchmark evaluating action and object hallucinations in video LLMs, Vript-RR combines reasoning with retrieval resolving question ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the temporal understanding of events in long videos rather than actions in short videos in previous works. All code, models, and datasets are available in https://github.com/mutonix/Vript.
PDF290December 8, 2024