MT-Video-Bench: Ein ganzheitlicher Benchmark für das Verständnis von Videos zur Bewertung multimodaler LLMs in mehrschrittigen Dialogen

Zusammenfassung

Die jüngste Entwicklung von Multimodalen Großen Sprachmodellen (MLLMs) hat die Fähigkeit der KI, visuelle Modalitäten zu verstehen, erheblich vorangetrieben. Bestehende Evaluierungsbenchmarks beschränken sich jedoch auf Einzelgespräch-Fragen, wodurch die Komplexität von Mehrfachgesprächen in realen Szenarien übersehen wird. Um diese Lücke zu schließen, führen wir MT-Video-Bench ein, einen ganzheitlichen Benchmark für das Verständnis von Videos, der MLLMs in Mehrfachgesprächen bewertet. Insbesondere bewertet unser MT-Video-Bench hauptsächlich sechs Kernkompetenzen, die sich auf Wahrnehmungsfähigkeit und Interaktivität konzentrieren und 987 sorgfältig kuratierte Mehrfachgespräche aus verschiedenen Domänen umfassen. Diese Fähigkeiten sind streng an reale Anwendungen wie interaktive Sportanalysen und mehrfache videobasierte intelligente Tutoring-Systeme angepasst. Mit MT-Video-Bench evaluieren wir umfassend verschiedene state-of-the-art Open-Source- und Closed-Source-MLLMs und decken deren erhebliche Leistungsunterschiede und Grenzen bei der Handhabung von Mehrfachgesprächen in Videos auf. Der Benchmark wird öffentlich zugänglich sein, um zukünftige Forschung zu fördern.

English

The recent development of Multimodal Large Language Models (MLLMs) has significantly advanced AI's ability to understand visual modalities. However, existing evaluation benchmarks remain limited to single-turn question answering, overlooking the complexity of multi-turn dialogues in real-world scenarios. To bridge this gap, we introduce MT-Video-Bench, a holistic video understanding benchmark for evaluating MLLMs in multi-turn dialogues. Specifically, our MT-Video-Bench mainly assesses six core competencies that focus on perceptivity and interactivity, encompassing 987 meticulously curated multi-turn dialogues from diverse domains. These capabilities are rigorously aligned with real-world applications, such as interactive sports analysis and multi-turn video-based intelligent tutoring. With MT-Video-Bench, we extensively evaluate various state-of-the-art open-source and closed-source MLLMs, revealing their significant performance discrepancies and limitations in handling multi-turn video dialogues. The benchmark will be publicly available to foster future research.