ViMU: Benchmarking des metaphorischen Verständnisses in Videos

Zusammenfassung

Sobald ein neues Medium entsteht, wird es nicht nur zur Übermittlung offensichtlicher Inhalte genutzt. Die von ihm transportierte Information wirkt typischerweise auf zwei Ebenen: eine ist der direkt dargestellte Inhalt, die andere der darunterliegende Subtext – die impliziten Ideen und Absichten, die der Urheber durch das Medium zu vermitteln sucht. In ähnlicher Weise dient Video, seit Videotechnologien weit verbreitet sind, nicht nur als leistungsstarkes Werkzeug zur Aufzeichnung und Übermittlung visueller Informationen, sondern auch als Träger von Emotionen, Einstellungen und sozialen Bedeutungen, die oft nur schwer explizit zu artikulieren sind. Daher liegt die wahre Bedeutung vieler Videos nicht allein in dem, was auf dem Bildschirm gezeigt wird; sie ist oft im Kontext, der Ausdrucksweise und den sozialen Erfahrungen der Zuschauer eingebettet. Manche Formen solcher Video-Subtexte sind humorvoll, andere tragen Ironie, Spott oder Kritik in sich. Diese impliziten Bedeutungen können zudem je nach kulturellem Hintergrund und sozialer Gruppe sehr unterschiedlich interpretiert werden. Die meisten bestehenden Videoverstehensmodelle konzentrieren sich jedoch noch immer vorrangig auf das wörtliche visuelle Verständnis, etwa das Erkennen von Objekten, Handlungen oder zeitlichen Beziehungen, und ihnen fehlt eine systematische Fähigkeit, die in Videos verborgenen metaphorischen, ironischen und sozialen Bedeutungen zu verstehen. Um diese Lücke zu schließen, stellen wir ViMU vor, den ersten Benchmark, der dazu entwickelt wurde, die Fähigkeit von Spitzenmodellen zum Verständnis von Video-Subtext systematisch zu bewerten. ViMU prüft, ob Videoverstehensmodelle über die wörtliche Wahrnehmung hinausgehen und implizite Bedeutungen ableiten können, während sie ihre Interpretationen auf multimodale Evidenz stützen und sowohl offene als auch Multiple-Choice-Fragen beantworten. Wesentlich ist, dass alle Fragen hinweisfrei gestaltet sind, sodass den Modellen vor der Beantwortung keine entscheidenden Beweise preisgegeben werden.

English

Any new medium, once it emerges, is used for more than the transmission of overt content alone. The information it carries typically operates on two levels: one is the content directly presented, while the other is the subtext beneath it-the implicit ideas and intentions the creator seeks to convey through the medium. Likewise, since video technologies became widely adopted, video has served not only as a powerful tool for recording and communicating visual information, but also as a vehicle for emotions, attitudes, and social meanings that are often difficult to articulate explicitly. Thus, the true meaning of many videos does not reside solely in what is shown on screen; it is often embedded in context, style of expression, and the viewer's social experience. Some forms of such video subtext are humorous, while others carry irony, mockery, or criticism. These implicit meanings can also be interpreted very differently across cultural backgrounds and social groups. However, most existing video understanding models still focus primarily on literal visual comprehension, such as recognizing objects, actions, or temporal relations, and lack a systematic ability to understand the metaphorical, ironic, and social meanings embedded in videos. To bridge this gap, we introduce ViMU, the first benchmark designed to systematically evaluate the subtext understanding capabilities of frontier models in videos. ViMU assesses whether video understanding models can go beyond literal perception to infer implicit meaning while grounding their interpretations in multimodal evidence and answering both open-ended and multiple-choice questions. Importantly, all questions are designed to be hint-free, ensuring that no key evidence is disclosed to models before answering.