ChatPaper.aiChatPaper

E.T. Bench: Rumo à Compreensão Aberta de Vídeo e Linguagem em Nível de Evento

E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding

September 26, 2024
Autores: Ye Liu, Zongyang Ma, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI

Resumo

Os avanços recentes em Modelos de Linguagem em Vídeo de Grande Escala (Video-LLMs) têm demonstrado seu grande potencial em compreensão de vídeo de propósito geral. Para verificar a importância desses modelos, uma série de benchmarks foram propostos para diagnosticar suas capacidades em diferentes cenários. No entanto, os benchmarks existentes avaliam os modelos apenas por meio de perguntas e respostas em nível de vídeo, carecendo de uma avaliação em nível de evento detalhada e diversidade de tarefas. Para preencher essa lacuna, apresentamos o E.T. Bench (Benchmark de Compreensão de Vídeo em Nível de Evento e Sensível ao Tempo), um benchmark em grande escala e de alta qualidade para compreensão de vídeo em nível de evento aberto. Categorizado em uma taxonomia de tarefas de 3 níveis, o E.T. Bench engloba 7,3 mil amostras em 12 tarefas com 7 mil vídeos (251,4 horas de duração total) em 8 domínios, fornecendo avaliações abrangentes. Avaliamos extensivamente 8 Modelos de Linguagem em Imagem e 12 Modelos de Linguagem em Vídeo em nosso benchmark, e os resultados revelam que os modelos de última geração para compreensão em nível grosseiro (nível de vídeo) têm dificuldade em resolver nossas tarefas detalhadas, como ancorar eventos de interesse dentro de vídeos, em grande parte devido ao curto comprimento do contexto do vídeo, representações de tempo inadequadas e falta de dados de treinamento multi-evento. Concentrando-se nessas questões, propomos ainda um modelo de referência robusto, E.T. Chat, juntamente com um conjunto de dados de ajuste de instruções E.T. Instruct 164K adaptado para compreensão em nível de evento detalhado. Nossa solução simples, porém eficaz, demonstra desempenho superior em múltiplos cenários.
English
Recent advances in Video Large Language Models (Video-LLMs) have demonstrated their great potential in general-purpose video understanding. To verify the significance of these models, a number of benchmarks have been proposed to diagnose their capabilities in different scenarios. However, existing benchmarks merely evaluate models through video-level question-answering, lacking fine-grained event-level assessment and task diversity. To fill this gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark), a large-scale and high-quality benchmark for open-ended event-level video understanding. Categorized within a 3-level task taxonomy, E.T. Bench encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length) under 8 domains, providing comprehensive evaluations. We extensively evaluated 8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that state-of-the-art models for coarse-level (video-level) understanding struggle to solve our fine-grained tasks, e.g., grounding event-of-interests within videos, largely due to the short video context length, improper time representations, and lack of multi-event training data. Focusing on these issues, we further propose a strong baseline model, E.T. Chat, together with an instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained event-level understanding. Our simple but effective solution demonstrates superior performance in multiple scenarios.

Summary

AI-Generated Summary

PDF72November 16, 2024