MetaphorVU : Vers une compréhension métaphorique des vidéos

Résumé

Les vidéos métaphoriques sont largement utilisées dans divers scénarios du monde réel pour transmettre des idées complexes, et leur compréhension requiert généralement des capacités cognitives de haut niveau. L'absence d'études systématiques sur la compréhension des vidéos métaphoriques limite non seulement l'applicabilité pratique des modèles de langage multimodaux de grande taille (MLLMs), mais entrave également l'évaluation approfondie de leurs capacités cognitives de haut niveau. Pour combler cette lacune, nous proposons MetaphorVU-Bench, le premier benchmark systématique et complet dédié à la compréhension des vidéos métaphoriques. Par le biais d'expériences, nous constatons que les MLLMs actuels peinent à comprendre correctement les vidéos métaphoriques, étant bien en deçà du niveau humain, principalement en raison d'un mappage inter-domaines défectueux. Motivés par ce constat, nous construisons un graphe de connaissances métaphoriques comme augmentation du mappage et proposons MetaphorBoost, un cadre d'amélioration au moment de l'inférence qui permet des gains de performance constants. Notre benchmark, nos analyses et notre méthode offrent des perspectives utiles et une base pour les recherches futures visant à faire progresser les MLLMs.

English

Metaphorical videos are prevalent across various real-world scenarios to convey complex ideas, and understanding them typically requires high-order cognitive capabilities. The lack of systematic studies on metaphorical video understanding not only constrains the real-world applicability of MLLMs but also impedes the thorough assessment of their high-order cognitive capabilities. To bridge this gap, we propose MetaphorVU-Bench, the first systematic and comprehensive benchmark dedicated to metaphorical video understanding. Through experiments, we find current MLLMs struggle with accurate metaphorical video understanding, lagging far behind human level, primarily due to defective cross-domain mapping. Motivated by this finding, we construct a metaphor knowledge graph as mapping augmentation and propose MetaphorBoost, an inference-time enhancement framework achieving consistent performance improvement. Our benchmark, analysis, and method provide useful insights and a foundation for future research on advancing MLLMs.