ChatPaper.aiChatPaper

E.T. Bench: К открытому пониманию видео на уровне событий с использованием языка

E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding

September 26, 2024
Авторы: Ye Liu, Zongyang Ma, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI

Аннотация

Недавние достижения в области моделей больших языков для видео (Video-LLMs) продемонстрировали их большой потенциал в понимании видео общего назначения. Для подтверждения значимости этих моделей было предложено несколько бенчмарков для диагностики их возможностей в различных сценариях. Однако существующие бенчмарки оценивают модели только через вопросно-ответный уровень видео, лишены тонкой оценки событий на уровне событий и разнообразия задач. Для заполнения этого пробела мы представляем E.T. Bench (Бенчмарк понимания видео на уровне событий и чувствительный к времени), крупномасштабный и высококачественный бенчмарк для понимания видео на уровне событий с открытым исходом. Классифицированный в рамках трехуровневой таксономии задач, E.T. Bench охватывает 7,3 тыс. образцов по 12 задачам с 7 тыс. видео (общая длительность 251,4 часа) в 8 доменах, обеспечивая всестороннюю оценку. Мы тщательно оценили 8 моделей Image-LLMs и 12 моделей Video-LLMs нашим бенчмарком, и результаты показывают, что передовые модели для грубого уровня понимания (на уровне видео) испытывают затруднения при решении наших тонких задач, например, привязка интересующих событий в видео, в значительной степени из-за короткой длины контекста видео, неправильного представления времени и отсутствия данных для мульти-событийного обучения. Сосредотачиваясь на этих проблемах, мы далее предлагаем сильную базовую модель, E.T. Chat, вместе с набором данных для настройки инструкций E.T. Instruct 164K, нацеленным на тонкое понимание событий на уровне событий. Наше простое, но эффективное решение демонстрирует превосходные результаты в различных сценариях.
English
Recent advances in Video Large Language Models (Video-LLMs) have demonstrated their great potential in general-purpose video understanding. To verify the significance of these models, a number of benchmarks have been proposed to diagnose their capabilities in different scenarios. However, existing benchmarks merely evaluate models through video-level question-answering, lacking fine-grained event-level assessment and task diversity. To fill this gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark), a large-scale and high-quality benchmark for open-ended event-level video understanding. Categorized within a 3-level task taxonomy, E.T. Bench encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length) under 8 domains, providing comprehensive evaluations. We extensively evaluated 8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that state-of-the-art models for coarse-level (video-level) understanding struggle to solve our fine-grained tasks, e.g., grounding event-of-interests within videos, largely due to the short video context length, improper time representations, and lack of multi-event training data. Focusing on these issues, we further propose a strong baseline model, E.T. Chat, together with an instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained event-level understanding. Our simple but effective solution demonstrates superior performance in multiple scenarios.

Summary

AI-Generated Summary

PDF72November 16, 2024