MovieCORE: COgnitief Redeneren in Films
MovieCORE: COgnitive REasoning in Movies
August 26, 2025
Auteurs: Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu
cs.AI
Samenvatting
Dit artikel introduceert MovieCORE, een nieuwe video question answering (VQA)-dataset die is ontworpen om een dieper cognitief begrip van filminhoud te onderzoeken. In tegenstelling tot bestaande datasets die zich richten op oppervlakkig begrip, benadrukt MovieCORE vragen die System-2-denken stimuleren terwijl ze specifiek gericht blijven op het videomateriaal. We presenteren een innovatieve agentic brainstorming-aanpak, waarbij meerdere grote taalmodellen (LLMs) worden gebruikt als denkagenten om hoogwaardige vraag-antwoordparen te genereren en te verfijnen. Om de kwaliteit van de dataset te evalueren, ontwikkelen we een reeks cognitieve tests die diepte, potentieel om tot nadenken aan te zetten en syntactische complexiteit beoordelen. We stellen ook een uitgebreid evaluatieschema voor om de prestaties van VQA-modellen bij diepere cognitieve taken te beoordelen. Om de beperkingen van bestaande video-taalmodellen (VLMs) aan te pakken, introduceren we een agentic enhancement-module, Agentic Choice Enhancement (ACE), die het redeneervermogen van modellen na de training met tot wel 25% verbetert. Ons werk draagt bij aan het bevorderen van filmbegrip in AI-systemen en biedt waardevolle inzichten in de mogelijkheden en beperkingen van huidige VQA-modellen wanneer ze worden geconfronteerd met uitdagendere, genuanceerde vragen over cinematische inhoud. Onze projectpagina, dataset en code zijn te vinden op https://joslefaure.github.io/assets/html/moviecore.html.
English
This paper introduces MovieCORE, a novel video question answering (VQA)
dataset designed to probe deeper cognitive understanding of movie content.
Unlike existing datasets that focus on surface-level comprehension, MovieCORE
emphasizes questions that engage System-2 thinking while remaining specific to
the video material. We present an innovative agentic brainstorming approach,
utilizing multiple large language models (LLMs) as thought agents to generate
and refine high-quality question-answer pairs. To evaluate dataset quality, we
develop a set of cognitive tests assessing depth, thought-provocation
potential, and syntactic complexity. We also propose a comprehensive evaluation
scheme for assessing VQA model performance on deeper cognitive tasks. To
address the limitations of existing video-language models (VLMs), we introduce
an agentic enhancement module, Agentic Choice Enhancement (ACE), which improves
model reasoning capabilities post-training by up to 25%. Our work contributes
to advancing movie understanding in AI systems and provides valuable insights
into the capabilities and limitations of current VQA models when faced with
more challenging, nuanced questions about cinematic content. Our project page,
dataset and code can be found at
https://joslefaure.github.io/assets/html/moviecore.html.