TVBench: Het opnieuw ontwerpen van Video-Taal Evaluatie
TVBench: Redesigning Video-Language Evaluation
October 10, 2024
Auteurs: Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano
cs.AI
Samenvatting
Grote taalmodellen hebben indrukwekkende prestaties aangetoond wanneer ze geïntegreerd worden met visiemodellen, zelfs waardoor videobegrip mogelijk wordt. Het evalueren van deze videomodellen brengt echter unieke uitdagingen met zich mee, waarvoor verschillende benchmarks zijn voorgesteld. In dit artikel tonen we aan dat de momenteel meest gebruikte video-taal benchmarks kunnen worden opgelost zonder veel temporale redenering te vereisen. We hebben drie belangrijke problemen geïdentificeerd in bestaande datasets: (i) statische informatie van enkele frames is vaak voldoende om de taken op te lossen, (ii) de tekst van de vragen en kandidaat-antwoorden is overdreven informatief, waardoor modellen correct kunnen antwoorden zonder te vertrouwen op visuele input, (iii) alleen wereldkennis kan veel van de vragen beantwoorden, waardoor de benchmarks een test van kennisreplicatie in plaats van visuele redenering zijn. Bovendien hebben we ontdekt dat open vraag-en-antwoord benchmarks voor videobegrip te kampen hebben met vergelijkbare problemen, terwijl het automatische evaluatieproces met LLM's onbetrouwbaar is, waardoor het een ongeschikt alternatief is. Als oplossing stellen we TVBench voor, een nieuw open-source videomeerkeuzevraag-en-antwoord benchmark, en tonen we aan door uitgebreide evaluaties dat het een hoog niveau van temporale begrip vereist. Verrassend genoeg vinden we dat de meeste recente state-of-the-art video-taalmodellen vergelijkbaar presteren met willekeurige prestaties op TVBench, waarbij alleen Gemini-Pro en Tarsier duidelijk deze basislijn overtreffen.
English
Large language models have demonstrated impressive performance when
integrated with vision models even enabling video understanding. However,
evaluating these video models presents its own unique challenges, for which
several benchmarks have been proposed. In this paper, we show that the
currently most used video-language benchmarks can be solved without requiring
much temporal reasoning. We identified three main issues in existing datasets:
(i) static information from single frames is often sufficient to solve the
tasks (ii) the text of the questions and candidate answers is overly
informative, allowing models to answer correctly without relying on any visual
input (iii) world knowledge alone can answer many of the questions, making the
benchmarks a test of knowledge replication rather than visual reasoning. In
addition, we found that open-ended question-answering benchmarks for video
understanding suffer from similar issues while the automatic evaluation process
with LLMs is unreliable, making it an unsuitable alternative. As a solution, we
propose TVBench, a novel open-source video multiple-choice question-answering
benchmark, and demonstrate through extensive evaluations that it requires a
high level of temporal understanding. Surprisingly, we find that most recent
state-of-the-art video-language models perform similarly to random performance
on TVBench, with only Gemini-Pro and Tarsier clearly surpassing this baseline.