E.T. Bench: Verso la comprensione aperta degli eventi a livello di video e linguaggio
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding
September 26, 2024
Autori: Ye Liu, Zongyang Ma, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Abstract
Gli avanzamenti recenti nei Modelli Linguistici di Grandi Dimensioni per Video (Video-LLMs) hanno dimostrato il loro grande potenziale nella comprensione video a uso generale. Per verificare l'importanza di questi modelli, sono stati proposti diversi benchmark per diagnosticarne le capacità in scenari differenti. Tuttavia, i benchmark esistenti valutano solamente i modelli attraverso domande e risposte a livello video, mancando di una valutazione dettagliata a livello di evento e di diversità di compiti. Per colmare questa lacuna, presentiamo E.T. Bench (Benchmark per la Comprensione Video a Livello di Evento e Sensibile al Tempo), un benchmark di ampia portata e di alta qualità per la comprensione video a livello di evento aperto. Categorizzato in una tassonomia di compiti a 3 livelli, E.T. Bench comprende 7,3K campioni distribuiti in 12 compiti con 7K video (per un totale di 251,4 ore) in 8 domini, fornendo valutazioni esaustive. Abbiamo valutato ampiamente 8 Modelli Linguistici per Immagini e 12 Modelli Linguistici per Video sul nostro benchmark, e i risultati rivelano che i modelli all'avanguardia per la comprensione a livello grezzo (livello video) faticano a risolvere i nostri compiti dettagliati, come ad esempio l'ancoraggio degli eventi di interesse all'interno dei video, principalmente a causa della breve lunghezza del contesto video, delle rappresentazioni temporali improprie e della mancanza di dati di addestramento multi-evento. Concentrandoci su questi problemi, proponiamo inoltre un modello base solido, E.T. Chat, insieme a un dataset di addestramento tramite istruzioni E.T. Instruct 164K adattato per la comprensione dettagliata a livello di evento. La nostra soluzione semplice ma efficace dimostra prestazioni superiori in molteplici scenari.
English
Recent advances in Video Large Language Models (Video-LLMs) have demonstrated
their great potential in general-purpose video understanding. To verify the
significance of these models, a number of benchmarks have been proposed to
diagnose their capabilities in different scenarios. However, existing
benchmarks merely evaluate models through video-level question-answering,
lacking fine-grained event-level assessment and task diversity. To fill this
gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding
Benchmark), a large-scale and high-quality benchmark for open-ended event-level
video understanding. Categorized within a 3-level task taxonomy, E.T. Bench
encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length)
under 8 domains, providing comprehensive evaluations. We extensively evaluated
8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that
state-of-the-art models for coarse-level (video-level) understanding struggle
to solve our fine-grained tasks, e.g., grounding event-of-interests within
videos, largely due to the short video context length, improper time
representations, and lack of multi-event training data. Focusing on these
issues, we further propose a strong baseline model, E.T. Chat, together with an
instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained
event-level understanding. Our simple but effective solution demonstrates
superior performance in multiple scenarios.