E.T. Bench: Naar Open-Ended Gebeurtenisniveau Video-Taalbegrip
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding
September 26, 2024
Auteurs: Ye Liu, Zongyang Ma, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Samenvatting
Recente ontwikkelingen in Video Large Language Models (Video-LLMs) hebben hun grote potentieel aangetoond in algemene video begripsvorming. Om de significantie van deze modellen te verifiëren, zijn verschillende benchmarks voorgesteld om hun capaciteiten in verschillende scenario's te diagnosticeren. Echter, bestaande benchmarks evalueren modellen slechts door middel van vraag-antwoord op videoniveau, waarbij fijnmazige gebeurtenisniveau-beoordeling en taakdiversiteit ontbreken. Om deze lacune op te vullen, introduceren we E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark), een grootschalige en hoogwaardige benchmark voor open-ended gebeurtenisniveau video begripsvorming. Gecategoriseerd binnen een 3-niveaus taak-taxonomie, omvat E.T. Bench 7,3K voorbeelden onder 12 taken met 7K video's (totaal 251,4 uur) onder 8 domeinen, wat uitgebreide evaluaties biedt. We hebben 8 Image-LLMs en 12 Video-LLMs uitgebreid geëvalueerd op onze benchmark, en de resultaten tonen aan dat state-of-the-art modellen voor grofmazig (videoniveau) begrip moeite hebben met het oplossen van onze fijnmazige taken, zoals het verankeren van gebeurtenissen van interesse binnen video's, grotendeels vanwege de korte videolengte, onjuiste tijdsrepresentaties en gebrek aan multi-gebeurtenis trainingsdata. Met de focus op deze kwesties stellen we verder een sterke basismodel voor, E.T. Chat, samen met een instructie-afstemmingsdataset E.T. Instruct 164K die is afgestemd op fijnmazige gebeurtenisniveau begripsvorming. Onze eenvoudige maar effectieve oplossing toont superieure prestaties in meerdere scenario's.
English
Recent advances in Video Large Language Models (Video-LLMs) have demonstrated
their great potential in general-purpose video understanding. To verify the
significance of these models, a number of benchmarks have been proposed to
diagnose their capabilities in different scenarios. However, existing
benchmarks merely evaluate models through video-level question-answering,
lacking fine-grained event-level assessment and task diversity. To fill this
gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding
Benchmark), a large-scale and high-quality benchmark for open-ended event-level
video understanding. Categorized within a 3-level task taxonomy, E.T. Bench
encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length)
under 8 domains, providing comprehensive evaluations. We extensively evaluated
8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that
state-of-the-art models for coarse-level (video-level) understanding struggle
to solve our fine-grained tasks, e.g., grounding event-of-interests within
videos, largely due to the short video context length, improper time
representations, and lack of multi-event training data. Focusing on these
issues, we further propose a strong baseline model, E.T. Chat, together with an
instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained
event-level understanding. Our simple but effective solution demonstrates
superior performance in multiple scenarios.Summary
AI-Generated Summary