ViMU : Évaluation Comparative de la Compréhension Métaphorique en Vidéo

Résumé

Dès lors qu’un nouveau média émerge, son usage dépasse la simple transmission d’un contenu explicite. L’information qu’il transporte agit généralement sur deux plans : le premier est le contenu directement présenté, tandis que le second est le sous-texte qui le sous-tend — les idées et intentions implicites que le créateur cherche à transmettre par le biais du média. De même, depuis l’adoption généralisée des technologies vidéo, la vidéo n’a pas seulement servi d’outil puissant pour enregistrer et communiquer des informations visuelles, mais aussi de véhicule pour des émotions, des attitudes et des significations sociales souvent difficiles à formuler explicitement. Ainsi, le sens véritable de nombreuses vidéos ne réside pas uniquement dans ce qui est montré à l’écran ; il est souvent ancré dans le contexte, le style d’expression et l’expérience sociale du spectateur. Certaines formes de ce sous-texte vidéo sont humoristiques, tandis que d’autres portent de l’ironie, de la moquerie ou de la critique. Ces significations implicites peuvent également être interprétées de manières très différentes selon les contextes culturels et les groupes sociaux. Cependant, la plupart des modèles existants de compréhension vidéo se concentrent encore principalement sur la compréhension littérale du visuel, comme la reconnaissance d’objets, d’actions ou de relations temporelles, et manquent d’une capacité systématique à appréhender les significations métaphoriques, ironiques et sociales intégrées dans les vidéos. Pour combler cette lacune, nous présentons ViMU, le premier référentiel conçu pour évaluer systématiquement les capacités de compréhension du sous-texte des modèles de pointe dans les vidéos. ViMU évalue si les modèles de compréhension vidéo peuvent aller au-delà de la perception littérale pour inférer un sens implicite, tout en ancrant leurs interprétations dans des preuves multimodales et en répondant à des questions ouvertes et à choix multiples. Il est important de noter que toutes les questions sont conçues pour être sans indice, garantissant qu’aucune preuve clé n’est divulguée aux modèles avant la réponse.

English

Any new medium, once it emerges, is used for more than the transmission of overt content alone. The information it carries typically operates on two levels: one is the content directly presented, while the other is the subtext beneath it-the implicit ideas and intentions the creator seeks to convey through the medium. Likewise, since video technologies became widely adopted, video has served not only as a powerful tool for recording and communicating visual information, but also as a vehicle for emotions, attitudes, and social meanings that are often difficult to articulate explicitly. Thus, the true meaning of many videos does not reside solely in what is shown on screen; it is often embedded in context, style of expression, and the viewer's social experience. Some forms of such video subtext are humorous, while others carry irony, mockery, or criticism. These implicit meanings can also be interpreted very differently across cultural backgrounds and social groups. However, most existing video understanding models still focus primarily on literal visual comprehension, such as recognizing objects, actions, or temporal relations, and lack a systematic ability to understand the metaphorical, ironic, and social meanings embedded in videos. To bridge this gap, we introduce ViMU, the first benchmark designed to systematically evaluate the subtext understanding capabilities of frontier models in videos. ViMU assesses whether video understanding models can go beyond literal perception to infer implicit meaning while grounding their interpretations in multimodal evidence and answering both open-ended and multiple-choice questions. Importantly, all questions are designed to be hint-free, ensuring that no key evidence is disclosed to models before answering.