E.T. Bench: Auf dem Weg zu einem offenen, ereignisbasierten Verständnis von Video und Sprache

papers.abstract

In den letzten Fortschritten bei Video Large Language Models (Video-LLMs) wurde ihr großes Potenzial bei der allgemeinen Videoverarbeitung gezeigt. Zur Bestätigung der Bedeutung dieser Modelle wurden mehrere Benchmarks vorgeschlagen, um ihre Fähigkeiten in verschiedenen Szenarien zu diagnostizieren. Allerdings bewerten bestehende Benchmarks Modelle lediglich durch Video-Level Frage-Antwort, wobei eine feinkörnige Ereignis-Level Bewertung und Aufgabenvielfalt fehlen. Um diese Lücke zu schließen, stellen wir E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark) vor, einen groß angelegten und qualitativ hochwertigen Benchmark für offene Ereignis-Level Videoverarbeitung. Kategorisiert in einer 3-stufigen Aufgaben-Taxonomie, umfasst E.T. Bench 7,3K Beispiele in 12 Aufgaben mit 7K Videos (insgesamt 251,4 Stunden Länge) in 8 Domänen und bietet umfassende Bewertungen. Wir haben 8 Image-LLMs und 12 Video-LLMs ausführlich auf unserem Benchmark evaluiert, und die Ergebnisse zeigen, dass State-of-the-Art-Modelle für grobe (Video-Level) Verständnis Schwierigkeiten haben, unsere feinkörnigen Aufgaben zu lösen, z.B. das Verankern von Interessensereignissen in Videos, hauptsächlich aufgrund der kurzen Videokontextlänge, unzureichender Zeitdarstellungen und fehlender Trainingsdaten für Multi-Ereignisse. Indem wir uns auf diese Probleme konzentrieren, schlagen wir ein starkes Basismodell, E.T. Chat, zusammen mit einem Anweisungsabstimmungsdatensatz E.T. Instruct 164K für feinkörniges Ereignis-Level Verständnis vor. Unsere einfache, aber effektive Lösung zeigt überlegene Leistung in mehreren Szenarien.

English

Recent advances in Video Large Language Models (Video-LLMs) have demonstrated their great potential in general-purpose video understanding. To verify the significance of these models, a number of benchmarks have been proposed to diagnose their capabilities in different scenarios. However, existing benchmarks merely evaluate models through video-level question-answering, lacking fine-grained event-level assessment and task diversity. To fill this gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark), a large-scale and high-quality benchmark for open-ended event-level video understanding. Categorized within a 3-level task taxonomy, E.T. Bench encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length) under 8 domains, providing comprehensive evaluations. We extensively evaluated 8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that state-of-the-art models for coarse-level (video-level) understanding struggle to solve our fine-grained tasks, e.g., grounding event-of-interests within videos, largely due to the short video context length, improper time representations, and lack of multi-event training data. Focusing on these issues, we further propose a strong baseline model, E.T. Chat, together with an instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained event-level understanding. Our simple but effective solution demonstrates superior performance in multiple scenarios.

E.T. Bench: Auf dem Weg zu einem offenen, ereignisbasierten Verständnis von Video und Sprache

E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding

papers.abstract

Support