Video-Holmes: Os MLLMs Podem Pensar Como Holmes para Raciocínio Complexo em Vídeos?
Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?
May 27, 2025
Autores: Junhao Cheng, Yuying Ge, Teng Wang, Yixiao Ge, Jing Liao, Ying Shan
cs.AI
Resumo
Avanços recentes no raciocínio CoT e no pós-treinamento de RL têm sido relatados como impulsionadores das capacidades de raciocínio em vídeo dos MLLMs. Esse progresso naturalmente levanta uma questão: esses modelos podem realizar raciocínios complexos em vídeo de maneira comparável a especialistas humanos? No entanto, os benchmarks de vídeo existentes avaliam principalmente habilidades de percepção visual e fundamentação, com perguntas que podem ser respondidas com base em prompts explícitos ou pistas visuais isoladas. Tais benchmarks não capturam plenamente as complexidades do raciocínio do mundo real, onde os humanos precisam buscar ativamente, integrar e analisar múltiplas pistas antes de chegar a uma conclusão. Para abordar essa questão, apresentamos o Video-Holmes, um benchmark inspirado no processo de raciocínio de Sherlock Holmes, projetado para avaliar as capacidades de raciocínio complexo em vídeo dos MLLMs. O Video-Holmes consiste em 1.837 perguntas derivadas de 270 curtas-metragens de suspense anotadas manualmente, abrangendo sete tarefas cuidadosamente projetadas. Cada tarefa é construída primeiro identificando eventos-chave e relações causais dentro dos filmes e, em seguida, elaborando perguntas que exigem que os modelos localizem e conectem ativamente múltiplas pistas visuais relevantes espalhadas por diferentes segmentos de vídeo. Nossa avaliação abrangente dos MLLMs state-of-the-art revela que, embora esses modelos geralmente se destaquem na percepção visual, eles enfrentam dificuldades substanciais na integração de informações e frequentemente perdem pistas críticas. Por exemplo, o modelo de melhor desempenho, o Gemini-2.5-Pro, alcança uma precisão de apenas 45%, com a maioria dos modelos pontuando abaixo de 40%. Nosso objetivo é que o Video-Holmes sirva como um "teste de Holmes" para o raciocínio multimodal, motivando os modelos a raciocinarem mais como humanos e destacando os desafios contínuos nesse campo. O benchmark está disponível em https://github.com/TencentARC/Video-Holmes.
English
Recent advances in CoT reasoning and RL post-training have been reported to
enhance video reasoning capabilities of MLLMs. This progress naturally raises a
question: can these models perform complex video reasoning in a manner
comparable to human experts? However, existing video benchmarks primarily
evaluate visual perception and grounding abilities, with questions that can be
answered based on explicit prompts or isolated visual cues. Such benchmarks do
not fully capture the intricacies of real-world reasoning, where humans must
actively search for, integrate, and analyze multiple clues before reaching a
conclusion. To address this issue, we present Video-Holmes, a benchmark
inspired by the reasoning process of Sherlock Holmes, designed to evaluate the
complex video reasoning capabilities of MLLMs. Video-Holmes consists of 1,837
questions derived from 270 manually annotated suspense short films, which spans
seven carefully designed tasks. Each task is constructed by first identifying
key events and causal relationships within films, and then designing questions
that require models to actively locate and connect multiple relevant visual
clues scattered across different video segments. Our comprehensive evaluation
of state-of-the-art MLLMs reveals that, while these models generally excel at
visual perception, they encounter substantial difficulties with integrating
information and often miss critical clues. For example, the best-performing
model, Gemini-2.5-Pro, achieves an accuracy of only 45%, with most models
scoring below 40%. We aim that Video-Holmes can serve as a "Holmes-test" for
multimodal reasoning, motivating models to reason more like humans and
emphasizing the ongoing challenges in this field. The benchmark is released in
https://github.com/TencentARC/Video-Holmes.