ChatPaper.aiChatPaper

TVBench: Ridisegno dell'Valutazione Video-Linguistica

TVBench: Redesigning Video-Language Evaluation

October 10, 2024
Autori: Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano
cs.AI

Abstract

I grandi modelli linguistici hanno dimostrato un'impressionante performance quando integrati con i modelli di visione, consentendo persino la comprensione dei video. Tuttavia, valutare questi modelli video presenta le proprie sfide uniche, per le quali sono state proposte diverse linee guida. In questo articolo, mostriamo che i benchmark video-linguaggio attualmente più utilizzati possono essere risolti senza richiedere un'elevata capacità di ragionamento temporale. Abbiamo identificato tre principali problematiche nei dataset esistenti: (i) le informazioni statiche dai singoli frame sono spesso sufficienti per risolvere i compiti, (ii) il testo delle domande e delle risposte candidate è eccessivamente informativo, consentendo ai modelli di rispondere correttamente senza fare affidamento su alcun input visivo, (iii) la conoscenza del mondo da sola può rispondere a molte delle domande, rendendo i benchmark un test di replicazione della conoscenza piuttosto che di ragionamento visivo. Inoltre, abbiamo scoperto che i benchmark di domande a risposta aperta per la comprensione dei video presentano problemi simili, mentre il processo di valutazione automatica con LLM è poco affidabile, rendendolo un'alternativa non adatta. Come soluzione, proponiamo TVBench, un nuovo benchmark open-source di domande a risposta multipla per i video, e dimostriamo attraverso valutazioni approfondite che richiede un elevato livello di comprensione temporale. Sorprendentemente, abbiamo scoperto che la maggior parte dei modelli video-linguaggio all'avanguardia più recenti hanno prestazioni simili a quelle casuali su TVBench, con solo Gemini-Pro e Tarsier che superano chiaramente questa base di confronto.
English
Large language models have demonstrated impressive performance when integrated with vision models even enabling video understanding. However, evaluating these video models presents its own unique challenges, for which several benchmarks have been proposed. In this paper, we show that the currently most used video-language benchmarks can be solved without requiring much temporal reasoning. We identified three main issues in existing datasets: (i) static information from single frames is often sufficient to solve the tasks (ii) the text of the questions and candidate answers is overly informative, allowing models to answer correctly without relying on any visual input (iii) world knowledge alone can answer many of the questions, making the benchmarks a test of knowledge replication rather than visual reasoning. In addition, we found that open-ended question-answering benchmarks for video understanding suffer from similar issues while the automatic evaluation process with LLMs is unreliable, making it an unsuitable alternative. As a solution, we propose TVBench, a novel open-source video multiple-choice question-answering benchmark, and demonstrate through extensive evaluations that it requires a high level of temporal understanding. Surprisingly, we find that most recent state-of-the-art video-language models perform similarly to random performance on TVBench, with only Gemini-Pro and Tarsier clearly surpassing this baseline.
PDF62February 7, 2026