ChatPaper.aiChatPaper

LongVideoBench: Een Benchmark voor Lang-contextueel Geïnterleerd Video-Taalbegrip

LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding

July 22, 2024
Auteurs: Haoning Wu, Dongxu Li, Bei Chen, Junnan Li
cs.AI

Samenvatting

Grote multimodale modellen (LMMs) verwerken steeds langere en rijkere invoer. Ondanks de vooruitgang zijn er weinig openbare benchmarks beschikbaar om deze ontwikkeling te meten. Om dit gat te dichten, introduceren we LongVideoBench, een vraag-antwoord-benchmark die video-taal verweven invoer tot een uur lang bevat. Onze benchmark omvat 3.763 web-gecollecteerde video's van verschillende lengtes met hun ondertitels over diverse thema's, ontworpen om LMMs uitgebreid te evalueren op langetermijn multimodale begrip. Om dit te bereiken, interpreteren we de primaire uitdaging als het nauwkeurig ophalen en redeneren over gedetailleerde multimodale informatie uit lange invoer. Als zodanig formuleren we een nieuwe video vraag-antwoord-taak genaamd verwijzend redeneren. Specifiek bevat het, als onderdeel van de vraag, een verwijzende query die gerelateerde videocontexten aanhaalt, genaamd de verwijzde context. Het model moet vervolgens redeneren over relevante videodetails uit de verwijzde context. Volgens het paradigma van verwijzend redeneren hebben we 6.678 door mensen geannoteerde meerkeuzevragen in 17 fijnmazige categorieën samengesteld, waarmee een van de meest uitgebreide benchmarks voor langdurig videobegrip wordt gevestigd. Evaluaties suggereren dat de LongVideoBench aanzienlijke uitdagingen biedt, zelfs voor de meest geavanceerde propriëtaire modellen (bijv. GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), terwijl hun open-source tegenhangers een nog grotere prestatiekloof laten zien. Daarnaast geven onze resultaten aan dat de modelprestaties op de benchmark alleen verbeteren wanneer ze meer frames kunnen verwerken, wat LongVideoBench positioneert als een waardevolle benchmark voor het evalueren van toekomstige generaties lang-context LMMs.
English
Large multimodal models (LMMs) are processing increasingly longer and richer inputs. Albeit the progress, few public benchmark is available to measure such development. To mitigate this gap, we introduce LongVideoBench, a question-answering benchmark that features video-language interleaved inputs up to an hour long. Our benchmark includes 3,763 varying-length web-collected videos with their subtitles across diverse themes, designed to comprehensively evaluate LMMs on long-term multimodal understanding. To achieve this, we interpret the primary challenge as to accurately retrieve and reason over detailed multimodal information from long inputs. As such, we formulate a novel video question-answering task termed referring reasoning. Specifically, as part of the question, it contains a referring query that references related video contexts, called referred context. The model is then required to reason over relevant video details from the referred context. Following the paradigm of referring reasoning, we curate 6,678 human-annotated multiple-choice questions in 17 fine-grained categories, establishing one of the most comprehensive benchmarks for long-form video understanding. Evaluations suggest that the LongVideoBench presents significant challenges even for the most advanced proprietary models (e.g. GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), while their open-source counterparts show an even larger performance gap. In addition, our results indicate that model performance on the benchmark improves only when they are capable of processing more frames, positioning LongVideoBench as a valuable benchmark for evaluating future-generation long-context LMMs.
PDF204February 8, 2026