ViMU: Бенчмаркинг метафорического понимания видео

Аннотация

Любое новое средство коммуникации, как только оно появляется, используется не только для передачи явного содержания. Информация, которую оно несёт, обычно действует на двух уровнях: один — это непосредственно представленное содержание, а другой — подтекст, скрытые идеи и намерения, которые создатель стремится донести через этот носитель. Аналогично, с момента широкого внедрения видеотехнологий видео служит не только мощным инструментом для записи и передачи визуальной информации, но и носителем эмоций, установок и социальных смыслов, которые зачастую трудно выразить в явной форме. Таким образом, истинный смысл многих видеороликов заключается не только в том, что показано на экране; он нередко заложен в контексте, стиле подачи и социальном опыте зрителя. Некоторые формы такого видеоподтекста носят юмористический характер, другие же несут иронию, насмешку или критику. Эти неявные смыслы могут по-разному интерпретироваться в зависимости от культурных особенностей и социальных групп. Однако большинство существующих моделей понимания видео по-прежнему ориентированы в первую очередь на буквальное визуальное восприятие, такое как распознавание объектов, действий или временных связей, и не обладают системной способностью понимать метафорические, иронические и социальные смыслы, заложенные в видео. Чтобы восполнить этот пробел, мы представляем ViMU — первый эталонный набор данных, предназначенный для систематической оценки способности передовых моделей понимать подтекст в видео. ViMU проверяет, могут ли модели понимания видео выйти за рамки буквального восприятия, чтобы выводить неявный смысл, обосновывая свои интерпретации мультимодальными доказательствами и отвечая как на открытые вопросы, так и на вопросы с множественным выбором. Важно отметить, что все вопросы составлены таким образом, чтобы не содержать подсказок: до ответа модели не раскрывается никаких ключевых свидетельств.

English

Any new medium, once it emerges, is used for more than the transmission of overt content alone. The information it carries typically operates on two levels: one is the content directly presented, while the other is the subtext beneath it-the implicit ideas and intentions the creator seeks to convey through the medium. Likewise, since video technologies became widely adopted, video has served not only as a powerful tool for recording and communicating visual information, but also as a vehicle for emotions, attitudes, and social meanings that are often difficult to articulate explicitly. Thus, the true meaning of many videos does not reside solely in what is shown on screen; it is often embedded in context, style of expression, and the viewer's social experience. Some forms of such video subtext are humorous, while others carry irony, mockery, or criticism. These implicit meanings can also be interpreted very differently across cultural backgrounds and social groups. However, most existing video understanding models still focus primarily on literal visual comprehension, such as recognizing objects, actions, or temporal relations, and lack a systematic ability to understand the metaphorical, ironic, and social meanings embedded in videos. To bridge this gap, we introduce ViMU, the first benchmark designed to systematically evaluate the subtext understanding capabilities of frontier models in videos. ViMU assesses whether video understanding models can go beyond literal perception to infer implicit meaning while grounding their interpretations in multimodal evidence and answering both open-ended and multiple-choice questions. Importantly, all questions are designed to be hint-free, ensuring that no key evidence is disclosed to models before answering.