ViMU: Evaluación comparativa de la comprensión metafórica en video

Resumen

Cualquier nuevo medio, una vez que surge, se utiliza para algo más que la mera transmisión de contenido explícito. La información que transporta suele operar en dos niveles: uno es el contenido presentado directamente, mientras que el otro es el subtexto subyacente —las ideas e intenciones implícitas que el creador busca transmitir a través del medio. Del mismo modo, desde que las tecnologías de video se adoptaron ampliamente, el video no solo ha servido como una poderosa herramienta para registrar y comunicar información visual, sino también como un vehículo para emociones, actitudes y significados sociales que a menudo son difíciles de articular explícitamente. Por lo tanto, el verdadero significado de muchos videos no reside únicamente en lo que se muestra en la pantalla; a menudo está incrustado en el contexto, el estilo de expresión y la experiencia social del espectador. Algunas formas de este subtexto en video son humorísticas, mientras que otras conllevan ironía, burla o crítica. Estos significados implícitos también pueden interpretarse de manera muy diferente según los antecedentes culturales y los grupos sociales. Sin embargo, la mayoría de los modelos existentes de comprensión de video aún se centran principalmente en la comprensión visual literal, como reconocer objetos, acciones o relaciones temporales, y carecen de una capacidad sistemática para entender los significados metafóricos, irónicos y sociales incrustados en los videos. Para cerrar esta brecha, presentamos ViMU, el primer punto de referencia diseñado para evaluar sistemáticamente las capacidades de comprensión de subtexto de los modelos de frontera en videos. ViMU evalúa si los modelos de comprensión de video pueden ir más allá de la percepción literal para inferir significados implícitos, fundamentando sus interpretaciones en evidencia multimodal y respondiendo tanto a preguntas abiertas como de opción múltiple. Es importante destacar que todas las preguntas están diseñadas para ser sin pistas, lo que garantiza que no se revele evidencia clave a los modelos antes de responder.

English

Any new medium, once it emerges, is used for more than the transmission of overt content alone. The information it carries typically operates on two levels: one is the content directly presented, while the other is the subtext beneath it-the implicit ideas and intentions the creator seeks to convey through the medium. Likewise, since video technologies became widely adopted, video has served not only as a powerful tool for recording and communicating visual information, but also as a vehicle for emotions, attitudes, and social meanings that are often difficult to articulate explicitly. Thus, the true meaning of many videos does not reside solely in what is shown on screen; it is often embedded in context, style of expression, and the viewer's social experience. Some forms of such video subtext are humorous, while others carry irony, mockery, or criticism. These implicit meanings can also be interpreted very differently across cultural backgrounds and social groups. However, most existing video understanding models still focus primarily on literal visual comprehension, such as recognizing objects, actions, or temporal relations, and lack a systematic ability to understand the metaphorical, ironic, and social meanings embedded in videos. To bridge this gap, we introduce ViMU, the first benchmark designed to systematically evaluate the subtext understanding capabilities of frontier models in videos. ViMU assesses whether video understanding models can go beyond literal perception to infer implicit meaning while grounding their interpretations in multimodal evidence and answering both open-ended and multiple-choice questions. Importantly, all questions are designed to be hint-free, ensuring that no key evidence is disclosed to models before answering.