ViMU: Het benchmarken van metaforisch videobegrip

Samenvatting

Elk nieuw medium wordt, zodra het opkomt, niet alleen gebruikt voor het overbrengen van expliciete inhoud. De informatie die het draagt, functioneert doorgaans op twee niveaus: het ene is de direct gepresenteerde inhoud, terwijl het andere de subtekst daaronder is – de impliciete ideeën en bedoelingen die de maker via het medium probeert over te brengen. Evenzo, sinds videotechnologieën op grote schaal zijn ingevoerd, dient video niet alleen als een krachtig hulpmiddel voor het vastleggen en communiceren van visuele informatie, maar ook als een voertuig voor emoties, attitudes en sociale betekenissen die vaak moeilijk expliciet te verwoorden zijn. De ware betekenis van veel video's ligt dus niet uitsluitend in wat er op het scherm wordt getoond; deze is vaak ingebed in context, expressiestijl en de sociale ervaring van de kijker. Sommige vormen van dergelijke videosubtekst zijn humoristisch, terwijl andere ironie, spot of kritiek bevatten. Deze impliciete betekenissen kunnen ook heel anders worden geïnterpreteerd, afhankelijk van culturele achtergronden en sociale groepen. De meeste bestaande modellen voor videobegrip richten zich echter nog primair op letterlijk visueel begrip, zoals het herkennen van objecten, acties of temporele relaties, en missen een systematisch vermogen om de metaforische, ironische en sociale betekenissen die in video's zijn ingebed te begrijpen. Om deze kloof te overbruggen, introduceren we ViMU, de eerste benchmark die is ontworpen om systematisch de subtekstbegripscapaciteiten van geavanceerde modellen in video's te evalueren. ViMU beoordeelt of videobegripsmodellen verder kunnen gaan dan letterlijke perceptie om impliciete betekenis af te leiden, terwijl ze hun interpretaties baseren op multimodaal bewijs en zowel open vragen als meerkeuzevragen beantwoorden. Belangrijk is dat alle vragen hintvrij zijn ontworpen, zodat er geen essentieel bewijs aan de modellen wordt onthuld voordat ze antwoorden.

English

Any new medium, once it emerges, is used for more than the transmission of overt content alone. The information it carries typically operates on two levels: one is the content directly presented, while the other is the subtext beneath it-the implicit ideas and intentions the creator seeks to convey through the medium. Likewise, since video technologies became widely adopted, video has served not only as a powerful tool for recording and communicating visual information, but also as a vehicle for emotions, attitudes, and social meanings that are often difficult to articulate explicitly. Thus, the true meaning of many videos does not reside solely in what is shown on screen; it is often embedded in context, style of expression, and the viewer's social experience. Some forms of such video subtext are humorous, while others carry irony, mockery, or criticism. These implicit meanings can also be interpreted very differently across cultural backgrounds and social groups. However, most existing video understanding models still focus primarily on literal visual comprehension, such as recognizing objects, actions, or temporal relations, and lack a systematic ability to understand the metaphorical, ironic, and social meanings embedded in videos. To bridge this gap, we introduce ViMU, the first benchmark designed to systematically evaluate the subtext understanding capabilities of frontier models in videos. ViMU assesses whether video understanding models can go beyond literal perception to infer implicit meaning while grounding their interpretations in multimodal evidence and answering both open-ended and multiple-choice questions. Importantly, all questions are designed to be hint-free, ensuring that no key evidence is disclosed to models before answering.