Analisi dei Benchmark per i Modelli Linguistici Video: Conoscenza, Percezione Spaziale o Vera Comprensione Temporale?

Abstract

I benchmark esistenti per la comprensione video spesso confondono domande basate sulla conoscenza e domande puramente basate sulle immagini, piuttosto che isolare chiaramente la capacità di ragionamento temporale di un modello, che è l'aspetto chiave che distingue la comprensione video da altre modalità. Identifichiamo due principali limitazioni che oscurano se punteggi più alti indicano veramente una migliore comprensione del contenuto dinamico nei video: (1) forti priorità linguistiche, dove i modelli possono rispondere alle domande senza guardare il video; e (2) invarianza allo shuffling, dove i modelli mantengono prestazioni simili su determinate domande anche quando i frame del video sono temporalmente mescolati. Per mitigare questi problemi, proponiamo VBenchComp, una pipeline automatizzata che categorizza le domande in diversi domini: LLM-Rispondibili, Semantiche e Temporali. Nello specifico, le domande LLM-Rispondibili possono essere risposte senza guardare il video; le domande Semantiche rimangono rispondibili anche quando i frame del video sono mescolati; e le domande Temporali richiedono la comprensione del corretto ordine temporale dei frame. Le restanti domande sono etichettate come Altro. Questo può consentire una valutazione granulare delle diverse capacità di un LLM video. La nostra analisi rivela debolezze sottili dei modelli che sono nascoste dai punteggi complessivi tradizionali, e offriamo intuizioni e raccomandazioni per progettare futuri benchmark che valutino in modo più accurato gli LLM video.

English

Existing video understanding benchmarks often conflate knowledge-based and purely image-based questions, rather than clearly isolating a model's temporal reasoning ability, which is the key aspect that distinguishes video understanding from other modalities. We identify two major limitations that obscure whether higher scores truly indicate stronger understanding of the dynamic content in videos: (1) strong language priors, where models can answer questions without watching the video; and (2) shuffling invariance, where models maintain similar performance on certain questions even when video frames are temporally shuffled. To alleviate these issues, we propose VBenchComp, an automated pipeline that categorizes questions into different domains: LLM-Answerable, Semantic, and Temporal. Specifically, LLM-Answerable questions can be answered without viewing the video; Semantic questions remain answerable even when the video frames are shuffled; and Temporal questions require understanding the correct temporal order of frames. The rest of the questions are labeled as Others. This can enable fine-grained evaluation of different capabilities of a video LLM. Our analysis reveals nuanced model weaknesses that are hidden by traditional overall scores, and we offer insights and recommendations for designing future benchmarks that more accurately assess video LLMs.

Analisi dei Benchmark per i Modelli Linguistici Video: Conoscenza, Percezione Spaziale o Vera Comprensione Temporale?

Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?

Abstract

Support