ViMU: Benchmarking da Compreensão Metafórica de Vídeos

Resumo

Assim que um novo meio surge, ele é utilizado para muito mais do que apenas a transmissão de conteúdo explícito. A informação que carrega geralmente opera em dois níveis: um é o conteúdo diretamente apresentado, enquanto o outro é o subtexto subjacente — as ideias e intenções implícitas que o criador busca transmitir por meio do meio. Da mesma forma, desde que as tecnologias de vídeo se tornaram amplamente adotadas, o vídeo tem servido não apenas como uma ferramenta poderosa para registrar e comunicar informações visuais, mas também como um veículo para emoções, atitudes e significados sociais que muitas vezes são difíceis de articular explicitamente. Assim, o verdadeiro significado de muitos vídeos não reside apenas no que é mostrado na tela; ele está frequentemente embutido no contexto, no estilo de expressão e na experiência social do espectador. Algumas formas desse subtexto em vídeo são humorísticas, enquanto outras carregam ironia, zombaria ou crítica. Esses significados implícitos também podem ser interpretados de maneiras muito diferentes entre contextos culturais e grupos sociais. No entanto, a maioria dos modelos existentes de compreensão de vídeo ainda se concentra principalmente na compreensão visual literal, como reconhecer objetos, ações ou relações temporais, e carece de uma capacidade sistemática de entender os significados metafóricos, irônicos e sociais embutidos nos vídeos. Para preencher essa lacuna, apresentamos o ViMU, o primeiro benchmark projetado para avaliar sistematicamente as capacidades de compreensão de subtexto dos modelos de fronteira em vídeos. O ViMU avalia se os modelos de compreensão de vídeo podem ir além da percepção literal para inferir significados implícitos, fundamentando suas interpretações em evidências multimodais e respondendo a perguntas abertas e de múltipla escolha. Importante destacar que todas as perguntas são projetadas para serem livres de pistas, garantindo que nenhuma evidência-chave seja revelada aos modelos antes da resposta.

English

Any new medium, once it emerges, is used for more than the transmission of overt content alone. The information it carries typically operates on two levels: one is the content directly presented, while the other is the subtext beneath it-the implicit ideas and intentions the creator seeks to convey through the medium. Likewise, since video technologies became widely adopted, video has served not only as a powerful tool for recording and communicating visual information, but also as a vehicle for emotions, attitudes, and social meanings that are often difficult to articulate explicitly. Thus, the true meaning of many videos does not reside solely in what is shown on screen; it is often embedded in context, style of expression, and the viewer's social experience. Some forms of such video subtext are humorous, while others carry irony, mockery, or criticism. These implicit meanings can also be interpreted very differently across cultural backgrounds and social groups. However, most existing video understanding models still focus primarily on literal visual comprehension, such as recognizing objects, actions, or temporal relations, and lack a systematic ability to understand the metaphorical, ironic, and social meanings embedded in videos. To bridge this gap, we introduce ViMU, the first benchmark designed to systematically evaluate the subtext understanding capabilities of frontier models in videos. ViMU assesses whether video understanding models can go beyond literal perception to infer implicit meaning while grounding their interpretations in multimodal evidence and answering both open-ended and multiple-choice questions. Importantly, all questions are designed to be hint-free, ensuring that no key evidence is disclosed to models before answering.