TVBench: Het opnieuw ontwerpen van Video-Taal Evaluatie

Samenvatting

Grote taalmodellen hebben indrukwekkende prestaties aangetoond wanneer ze geïntegreerd worden met visiemodellen, zelfs waardoor videobegrip mogelijk wordt. Het evalueren van deze videomodellen brengt echter unieke uitdagingen met zich mee, waarvoor verschillende benchmarks zijn voorgesteld. In dit artikel tonen we aan dat de momenteel meest gebruikte video-taal benchmarks kunnen worden opgelost zonder veel temporale redenering te vereisen. We hebben drie belangrijke problemen geïdentificeerd in bestaande datasets: (i) statische informatie van enkele frames is vaak voldoende om de taken op te lossen, (ii) de tekst van de vragen en kandidaat-antwoorden is overdreven informatief, waardoor modellen correct kunnen antwoorden zonder te vertrouwen op visuele input, (iii) alleen wereldkennis kan veel van de vragen beantwoorden, waardoor de benchmarks een test van kennisreplicatie in plaats van visuele redenering zijn. Bovendien hebben we ontdekt dat open vraag-en-antwoord benchmarks voor videobegrip te kampen hebben met vergelijkbare problemen, terwijl het automatische evaluatieproces met LLM's onbetrouwbaar is, waardoor het een ongeschikt alternatief is. Als oplossing stellen we TVBench voor, een nieuw open-source videomeerkeuzevraag-en-antwoord benchmark, en tonen we aan door uitgebreide evaluaties dat het een hoog niveau van temporale begrip vereist. Verrassend genoeg vinden we dat de meeste recente state-of-the-art video-taalmodellen vergelijkbaar presteren met willekeurige prestaties op TVBench, waarbij alleen Gemini-Pro en Tarsier duidelijk deze basislijn overtreffen.

English

Large language models have demonstrated impressive performance when integrated with vision models even enabling video understanding. However, evaluating these video models presents its own unique challenges, for which several benchmarks have been proposed. In this paper, we show that the currently most used video-language benchmarks can be solved without requiring much temporal reasoning. We identified three main issues in existing datasets: (i) static information from single frames is often sufficient to solve the tasks (ii) the text of the questions and candidate answers is overly informative, allowing models to answer correctly without relying on any visual input (iii) world knowledge alone can answer many of the questions, making the benchmarks a test of knowledge replication rather than visual reasoning. In addition, we found that open-ended question-answering benchmarks for video understanding suffer from similar issues while the automatic evaluation process with LLMs is unreliable, making it an unsuitable alternative. As a solution, we propose TVBench, a novel open-source video multiple-choice question-answering benchmark, and demonstrate through extensive evaluations that it requires a high level of temporal understanding. Surprisingly, we find that most recent state-of-the-art video-language models perform similarly to random performance on TVBench, with only Gemini-Pro and Tarsier clearly surpassing this baseline.

TVBench: Het opnieuw ontwerpen van Video-Taal Evaluatie

TVBench: Redesigning Video-Language Evaluation

Samenvatting

Support