MovieCORE : Raisonnement COgnitif dans les Films
MovieCORE: COgnitive REasoning in Movies
August 26, 2025
papers.authors: Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu
cs.AI
papers.abstract
Cet article présente MovieCORE, un nouveau jeu de données pour la réponse à des questions sur des vidéos (VQA) conçu pour explorer une compréhension cognitive plus approfondie du contenu cinématographique. Contrairement aux jeux de données existants qui se concentrent sur une compréhension superficielle, MovieCORE met l'accent sur des questions qui sollicitent la pensée de type Système 2 tout en restant spécifiques au matériel vidéo. Nous proposons une approche innovante de brainstorming agentique, utilisant plusieurs grands modèles de langage (LLMs) comme agents de pensée pour générer et affiner des paires question-réponse de haute qualité. Pour évaluer la qualité du jeu de données, nous développons une série de tests cognitifs mesurant la profondeur, le potentiel de provocation de la pensée et la complexité syntaxique. Nous proposons également un schéma d'évaluation complet pour mesurer les performances des modèles VQA sur des tâches cognitives plus approfondies. Pour pallier les limites des modèles vidéo-langage (VLMs) existants, nous introduisons un module d'amélioration agentique, Agentic Choice Enhancement (ACE), qui améliore les capacités de raisonnement des modèles après leur entraînement jusqu'à 25 %. Notre travail contribue à faire progresser la compréhension des films dans les systèmes d'IA et offre des insights précieux sur les capacités et les limites des modèles VQA actuels face à des questions plus complexes et nuancées sur le contenu cinématographique. Notre page de projet, le jeu de données et le code sont disponibles à l'adresse suivante : https://joslefaure.github.io/assets/html/moviecore.html.
English
This paper introduces MovieCORE, a novel video question answering (VQA)
dataset designed to probe deeper cognitive understanding of movie content.
Unlike existing datasets that focus on surface-level comprehension, MovieCORE
emphasizes questions that engage System-2 thinking while remaining specific to
the video material. We present an innovative agentic brainstorming approach,
utilizing multiple large language models (LLMs) as thought agents to generate
and refine high-quality question-answer pairs. To evaluate dataset quality, we
develop a set of cognitive tests assessing depth, thought-provocation
potential, and syntactic complexity. We also propose a comprehensive evaluation
scheme for assessing VQA model performance on deeper cognitive tasks. To
address the limitations of existing video-language models (VLMs), we introduce
an agentic enhancement module, Agentic Choice Enhancement (ACE), which improves
model reasoning capabilities post-training by up to 25%. Our work contributes
to advancing movie understanding in AI systems and provides valuable insights
into the capabilities and limitations of current VQA models when faced with
more challenging, nuanced questions about cinematic content. Our project page,
dataset and code can be found at
https://joslefaure.github.io/assets/html/moviecore.html.