E.T. Bench: Auf dem Weg zu einem offenen, ereignisbasierten Verständnis von Video und Sprache
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding
September 26, 2024
Autoren: Ye Liu, Zongyang Ma, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Zusammenfassung
In den letzten Fortschritten bei Video Large Language Models (Video-LLMs) wurde ihr großes Potenzial bei der allgemeinen Videoverarbeitung gezeigt. Zur Bestätigung der Bedeutung dieser Modelle wurden mehrere Benchmarks vorgeschlagen, um ihre Fähigkeiten in verschiedenen Szenarien zu diagnostizieren. Allerdings bewerten bestehende Benchmarks Modelle lediglich durch Video-Level Frage-Antwort, wobei eine feinkörnige Ereignis-Level Bewertung und Aufgabenvielfalt fehlen. Um diese Lücke zu schließen, stellen wir E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark) vor, einen groß angelegten und qualitativ hochwertigen Benchmark für offene Ereignis-Level Videoverarbeitung. Kategorisiert in einer 3-stufigen Aufgaben-Taxonomie, umfasst E.T. Bench 7,3K Beispiele in 12 Aufgaben mit 7K Videos (insgesamt 251,4 Stunden Länge) in 8 Domänen und bietet umfassende Bewertungen. Wir haben 8 Image-LLMs und 12 Video-LLMs ausführlich auf unserem Benchmark evaluiert, und die Ergebnisse zeigen, dass State-of-the-Art-Modelle für grobe (Video-Level) Verständnis Schwierigkeiten haben, unsere feinkörnigen Aufgaben zu lösen, z.B. das Verankern von Interessensereignissen in Videos, hauptsächlich aufgrund der kurzen Videokontextlänge, unzureichender Zeitdarstellungen und fehlender Trainingsdaten für Multi-Ereignisse. Indem wir uns auf diese Probleme konzentrieren, schlagen wir ein starkes Basismodell, E.T. Chat, zusammen mit einem Anweisungsabstimmungsdatensatz E.T. Instruct 164K für feinkörniges Ereignis-Level Verständnis vor. Unsere einfache, aber effektive Lösung zeigt überlegene Leistung in mehreren Szenarien.
English
Recent advances in Video Large Language Models (Video-LLMs) have demonstrated
their great potential in general-purpose video understanding. To verify the
significance of these models, a number of benchmarks have been proposed to
diagnose their capabilities in different scenarios. However, existing
benchmarks merely evaluate models through video-level question-answering,
lacking fine-grained event-level assessment and task diversity. To fill this
gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding
Benchmark), a large-scale and high-quality benchmark for open-ended event-level
video understanding. Categorized within a 3-level task taxonomy, E.T. Bench
encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length)
under 8 domains, providing comprehensive evaluations. We extensively evaluated
8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that
state-of-the-art models for coarse-level (video-level) understanding struggle
to solve our fine-grained tasks, e.g., grounding event-of-interests within
videos, largely due to the short video context length, improper time
representations, and lack of multi-event training data. Focusing on these
issues, we further propose a strong baseline model, E.T. Chat, together with an
instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained
event-level understanding. Our simple but effective solution demonstrates
superior performance in multiple scenarios.Summary
AI-Generated Summary