MovieCORE: Raciocínio Cognitivo em Filmes
MovieCORE: COgnitive REasoning in Movies
August 26, 2025
Autores: Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu
cs.AI
Resumo
Este artigo apresenta o MovieCORE, um novo conjunto de dados para resposta a perguntas em vídeo (VQA) projetado para explorar uma compreensão cognitiva mais profunda do conteúdo cinematográfico. Diferente dos conjuntos de dados existentes que se concentram na compreensão superficial, o MovieCORE enfatiza perguntas que envolvem o pensamento do Sistema 2, mantendo-se específicas ao material do vídeo. Apresentamos uma abordagem inovadora de brainstorming agentivo, utilizando múltiplos modelos de linguagem de grande escala (LLMs) como agentes de pensamento para gerar e refinar pares de perguntas e respostas de alta qualidade. Para avaliar a qualidade do conjunto de dados, desenvolvemos um conjunto de testes cognitivos que avaliam profundidade, potencial de provocação de pensamento e complexidade sintática. Também propomos um esquema de avaliação abrangente para medir o desempenho de modelos VQA em tarefas cognitivas mais profundas. Para abordar as limitações dos modelos vídeo-linguagem (VLMs) existentes, introduzimos um módulo de aprimoramento agentivo, o Agentic Choice Enhancement (ACE), que melhora as capacidades de raciocínio do modelo após o treinamento em até 25%. Nosso trabalho contribui para o avanço da compreensão de filmes em sistemas de IA e oferece insights valiosos sobre as capacidades e limitações dos modelos VQA atuais ao enfrentarem perguntas mais desafiadoras e sutis sobre conteúdo cinematográfico. Nossa página do projeto, conjunto de dados e código podem ser encontrados em https://joslefaure.github.io/assets/html/moviecore.html.
English
This paper introduces MovieCORE, a novel video question answering (VQA)
dataset designed to probe deeper cognitive understanding of movie content.
Unlike existing datasets that focus on surface-level comprehension, MovieCORE
emphasizes questions that engage System-2 thinking while remaining specific to
the video material. We present an innovative agentic brainstorming approach,
utilizing multiple large language models (LLMs) as thought agents to generate
and refine high-quality question-answer pairs. To evaluate dataset quality, we
develop a set of cognitive tests assessing depth, thought-provocation
potential, and syntactic complexity. We also propose a comprehensive evaluation
scheme for assessing VQA model performance on deeper cognitive tasks. To
address the limitations of existing video-language models (VLMs), we introduce
an agentic enhancement module, Agentic Choice Enhancement (ACE), which improves
model reasoning capabilities post-training by up to 25%. Our work contributes
to advancing movie understanding in AI systems and provides valuable insights
into the capabilities and limitations of current VQA models when faced with
more challenging, nuanced questions about cinematic content. Our project page,
dataset and code can be found at
https://joslefaure.github.io/assets/html/moviecore.html.