Video-Holmes: Os MLLMs Podem Pensar Como Holmes para Raciocínio Complexo em Vídeos?

Resumo

Avanços recentes no raciocínio CoT e no pós-treinamento de RL têm sido relatados como impulsionadores das capacidades de raciocínio em vídeo dos MLLMs. Esse progresso naturalmente levanta uma questão: esses modelos podem realizar raciocínios complexos em vídeo de maneira comparável a especialistas humanos? No entanto, os benchmarks de vídeo existentes avaliam principalmente habilidades de percepção visual e fundamentação, com perguntas que podem ser respondidas com base em prompts explícitos ou pistas visuais isoladas. Tais benchmarks não capturam plenamente as complexidades do raciocínio do mundo real, onde os humanos precisam buscar ativamente, integrar e analisar múltiplas pistas antes de chegar a uma conclusão. Para abordar essa questão, apresentamos o Video-Holmes, um benchmark inspirado no processo de raciocínio de Sherlock Holmes, projetado para avaliar as capacidades de raciocínio complexo em vídeo dos MLLMs. O Video-Holmes consiste em 1.837 perguntas derivadas de 270 curtas-metragens de suspense anotadas manualmente, abrangendo sete tarefas cuidadosamente projetadas. Cada tarefa é construída primeiro identificando eventos-chave e relações causais dentro dos filmes e, em seguida, elaborando perguntas que exigem que os modelos localizem e conectem ativamente múltiplas pistas visuais relevantes espalhadas por diferentes segmentos de vídeo. Nossa avaliação abrangente dos MLLMs state-of-the-art revela que, embora esses modelos geralmente se destaquem na percepção visual, eles enfrentam dificuldades substanciais na integração de informações e frequentemente perdem pistas críticas. Por exemplo, o modelo de melhor desempenho, o Gemini-2.5-Pro, alcança uma precisão de apenas 45%, com a maioria dos modelos pontuando abaixo de 40%. Nosso objetivo é que o Video-Holmes sirva como um "teste de Holmes" para o raciocínio multimodal, motivando os modelos a raciocinarem mais como humanos e destacando os desafios contínuos nesse campo. O benchmark está disponível em https://github.com/TencentARC/Video-Holmes.

English

Recent advances in CoT reasoning and RL post-training have been reported to enhance video reasoning capabilities of MLLMs. This progress naturally raises a question: can these models perform complex video reasoning in a manner comparable to human experts? However, existing video benchmarks primarily evaluate visual perception and grounding abilities, with questions that can be answered based on explicit prompts or isolated visual cues. Such benchmarks do not fully capture the intricacies of real-world reasoning, where humans must actively search for, integrate, and analyze multiple clues before reaching a conclusion. To address this issue, we present Video-Holmes, a benchmark inspired by the reasoning process of Sherlock Holmes, designed to evaluate the complex video reasoning capabilities of MLLMs. Video-Holmes consists of 1,837 questions derived from 270 manually annotated suspense short films, which spans seven carefully designed tasks. Each task is constructed by first identifying key events and causal relationships within films, and then designing questions that require models to actively locate and connect multiple relevant visual clues scattered across different video segments. Our comprehensive evaluation of state-of-the-art MLLMs reveals that, while these models generally excel at visual perception, they encounter substantial difficulties with integrating information and often miss critical clues. For example, the best-performing model, Gemini-2.5-Pro, achieves an accuracy of only 45%, with most models scoring below 40%. We aim that Video-Holmes can serve as a "Holmes-test" for multimodal reasoning, motivating models to reason more like humans and emphasizing the ongoing challenges in this field. The benchmark is released in https://github.com/TencentARC/Video-Holmes.

Video-Holmes: Os MLLMs Podem Pensar Como Holmes para Raciocínio Complexo em Vídeos?

Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?

Resumo

Support