ChatPaper.aiChatPaper

E.T. Bench: Hacia la comprensión abierta de eventos a nivel de video-lenguaje

E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding

September 26, 2024
Autores: Ye Liu, Zongyang Ma, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI

Resumen

Los avances recientes en Modelos de Lenguaje de Video a Gran Escala (Video-LLMs) han demostrado su gran potencial en la comprensión de videos de propósito general. Para verificar la importancia de estos modelos, se han propuesto varios benchmarks para diagnosticar sus capacidades en diferentes escenarios. Sin embargo, los benchmarks existentes evalúan simplemente los modelos a través de preguntas y respuestas a nivel de video, careciendo de una evaluación detallada a nivel de eventos y diversidad de tareas. Para llenar este vacío, presentamos E.T. Bench (Banco de Pruebas de Comprensión de Video a Nivel de Eventos y Sensible al Tiempo), un benchmark a gran escala y de alta calidad para la comprensión de videos a nivel de eventos abiertos. Categorizado dentro de una taxonomía de tareas de 3 niveles, E.T. Bench abarca 7.3K muestras bajo 12 tareas con 7K videos (251.4 horas en total) en 8 dominios, proporcionando evaluaciones exhaustivas. Evaluamos extensamente 8 Modelos de Lenguaje de Imagen y 12 Modelos de Lenguaje de Video en nuestro benchmark, y los resultados revelan que los modelos de vanguardia para la comprensión a nivel grueso (nivel de video) tienen dificultades para resolver nuestras tareas detalladas, por ejemplo, fundamentar eventos de interés dentro de videos, en gran parte debido a la longitud corta del contexto del video, representaciones de tiempo inadecuadas y falta de datos de entrenamiento multi-evento. Centrándonos en estos problemas, proponemos además un modelo de referencia sólido, E.T. Chat, junto con un conjunto de datos de ajuste de instrucciones E.T. Instruct 164K diseñado para la comprensión detallada de eventos a nivel de eventos. Nuestra solución simple pero efectiva demuestra un rendimiento superior en múltiples escenarios.
English
Recent advances in Video Large Language Models (Video-LLMs) have demonstrated their great potential in general-purpose video understanding. To verify the significance of these models, a number of benchmarks have been proposed to diagnose their capabilities in different scenarios. However, existing benchmarks merely evaluate models through video-level question-answering, lacking fine-grained event-level assessment and task diversity. To fill this gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark), a large-scale and high-quality benchmark for open-ended event-level video understanding. Categorized within a 3-level task taxonomy, E.T. Bench encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length) under 8 domains, providing comprehensive evaluations. We extensively evaluated 8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that state-of-the-art models for coarse-level (video-level) understanding struggle to solve our fine-grained tasks, e.g., grounding event-of-interests within videos, largely due to the short video context length, improper time representations, and lack of multi-event training data. Focusing on these issues, we further propose a strong baseline model, E.T. Chat, together with an instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained event-level understanding. Our simple but effective solution demonstrates superior performance in multiple scenarios.

Summary

AI-Generated Summary

PDF72November 16, 2024