ChatPaper.aiChatPaper

VideoReasonBench: Os MLLMs Podem Realizar Raciocínio Complexo Centrado em Vídeo?

VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

May 29, 2025
Autores: Yuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun
cs.AI

Resumo

Estudos recentes mostraram que o raciocínio em cadeia longa de pensamento (CoT, na sigla em inglês) pode melhorar significativamente o desempenho de grandes modelos de linguagem (LLMs, na sigla em inglês) em tarefas complexas. No entanto, esse benefício ainda não foi demonstrado no domínio de compreensão de vídeos, já que a maioria dos benchmarks existentes carece da profundidade de raciocínio necessária para evidenciar as vantagens de cadeias CoT estendidas. Embora esforços recentes tenham proposto benchmarks voltados para raciocínio em vídeos, as tarefas são frequentemente baseadas em conhecimento e não dependem fortemente do conteúdo visual. Para preencher essa lacuna, introduzimos o VideoReasonBench, um benchmark projetado para avaliar o raciocínio complexo e centrado na visão em vídeos. Para garantir riqueza visual e alta complexidade de raciocínio, cada vídeo no VideoReasonBench retrata uma sequência de operações detalhadas sobre um estado latente que só é visível em parte do vídeo. As perguntas avaliam três níveis crescentes de habilidades de raciocínio em vídeos: recordar informações visuais observadas, inferir o conteúdo de estados latentes e prever informações além do vídeo. Nesse cenário de tarefas, os modelos precisam recordar com precisão múltiplas operações no vídeo e realizar raciocínios passo a passo para obter respostas finais corretas para essas perguntas. Utilizando o VideoReasonBench, avaliamos de forma abrangente 18 modelos multimodais de última geração (MLLMs, na sigla em inglês), constatando que a maioria tem desempenho ruim em raciocínio complexo em vídeos, por exemplo, o GPT-4o alcança apenas 6,9% de precisão, enquanto o Gemini-2.5-Pro, aprimorado com pensamento, supera significativamente os outros com 56,0% de precisão. Nossas investigações sobre "escalonamento em tempo de teste" revelam ainda que um orçamento de pensamento estendido, embora ofereça benefícios nulos ou mínimos em benchmarks de vídeo existentes, é essencial para melhorar o desempenho no VideoReasonBench.
English
Recent studies have shown that long chain-of-thought (CoT) reasoning can significantly enhance the performance of large language models (LLMs) on complex tasks. However, this benefit is yet to be demonstrated in the domain of video understanding, since most existing benchmarks lack the reasoning depth required to demonstrate the advantages of extended CoT chains. While recent efforts have proposed benchmarks aimed at video reasoning, the tasks are often knowledge-driven and do not rely heavily on visual content. To bridge this gap, we introduce VideoReasonBench, a benchmark designed to evaluate vision-centric, complex video reasoning. To ensure visual richness and high reasoning complexity, each video in VideoReasonBench depicts a sequence of fine-grained operations on a latent state that is only visible in part of the video. The questions evaluate three escalating levels of video reasoning skills: recalling observed visual information, inferring the content of latent states, and predicting information beyond the video. Under such task setting, models have to precisely recall multiple operations in the video, and perform step-by-step reasoning to get correct final answers for these questions. Using VideoReasonBench, we comprehensively evaluate 18 state-of-the-art multimodal LLMs (MLLMs), finding that most perform poorly on complex video reasoning, e.g., GPT-4o achieves only 6.9% accuracy, while the thinking-enhanced Gemini-2.5-Pro significantly outperforms others with 56.0% accuracy. Our investigations on "test-time scaling" further reveal that extended thinking budget, while offering none or minimal benefits on existing video benchmarks, is essential for improving the performance on VideoReasonBench.
PDF396December 11, 2025