ChatPaper.aiChatPaper

Décomposer les benchmarks des modèles de langage vidéo : connaissance, perception spatiale ou véritable compréhension temporelle ?

Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?

May 20, 2025
papers.authors: Bo Feng, Zhengfeng Lai, Shiyu Li, Zizhen Wang, Simon Wang, Ping Huang, Meng Cao
cs.AI

papers.abstract

Les benchmarks existants pour la compréhension vidéo confondent souvent les questions basées sur la connaissance et celles purement basées sur l'image, plutôt que d'isoler clairement la capacité de raisonnement temporel d'un modèle, qui est l'aspect clé distinguant la compréhension vidéo des autres modalités. Nous identifions deux limitations majeures qui obscurcissent la question de savoir si des scores plus élevés indiquent véritablement une meilleure compréhension du contenu dynamique des vidéos : (1) les forts a priori linguistiques, où les modèles peuvent répondre aux questions sans regarder la vidéo ; et (2) l'invariance au mélange, où les modèles maintiennent des performances similaires sur certaines questions même lorsque les images de la vidéo sont mélangées temporellement. Pour atténuer ces problèmes, nous proposons VBenchComp, un pipeline automatisé qui catégorise les questions dans différents domaines : LLM-Répondables, Sémantiques et Temporelles. Plus précisément, les questions LLM-Répondables peuvent être résolues sans visionner la vidéo ; les questions Sémantiques restent répondables même lorsque les images de la vidéo sont mélangées ; et les questions Temporelles nécessitent de comprendre l'ordre temporel correct des images. Les autres questions sont étiquetées comme Autres. Cela permet une évaluation fine des différentes capacités d'un LLM vidéo. Notre analyse révèle des faiblesses nuancées des modèles qui sont masquées par les scores globaux traditionnels, et nous offrons des insights et des recommandations pour concevoir de futurs benchmarks qui évaluent plus précisément les LLM vidéo.
English
Existing video understanding benchmarks often conflate knowledge-based and purely image-based questions, rather than clearly isolating a model's temporal reasoning ability, which is the key aspect that distinguishes video understanding from other modalities. We identify two major limitations that obscure whether higher scores truly indicate stronger understanding of the dynamic content in videos: (1) strong language priors, where models can answer questions without watching the video; and (2) shuffling invariance, where models maintain similar performance on certain questions even when video frames are temporally shuffled. To alleviate these issues, we propose VBenchComp, an automated pipeline that categorizes questions into different domains: LLM-Answerable, Semantic, and Temporal. Specifically, LLM-Answerable questions can be answered without viewing the video; Semantic questions remain answerable even when the video frames are shuffled; and Temporal questions require understanding the correct temporal order of frames. The rest of the questions are labeled as Others. This can enable fine-grained evaluation of different capabilities of a video LLM. Our analysis reveals nuanced model weaknesses that are hidden by traditional overall scores, and we offer insights and recommendations for designing future benchmarks that more accurately assess video LLMs.
PDF102May 30, 2025