ChatPaper.aiChatPaper

MovieCORE: Ragionamento COgnitivo nei Film

MovieCORE: COgnitive REasoning in Movies

August 26, 2025
Autori: Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu
cs.AI

Abstract

Questo articolo presenta MovieCORE, un nuovo dataset per il video question answering (VQA) progettato per esplorare una comprensione cognitiva più profonda dei contenuti cinematografici. A differenza dei dataset esistenti che si concentrano su una comprensione superficiale, MovieCORE enfatizza domande che coinvolgono il pensiero di Sistema-2, rimanendo specifiche al materiale video. Presentiamo un approccio innovativo di brainstorming agentico, utilizzando più modelli linguistici di grandi dimensioni (LLM) come agenti di pensiero per generare e affinare coppie domanda-risposta di alta qualità. Per valutare la qualità del dataset, sviluppiamo una serie di test cognitivi che valutano profondità, potenziale di stimolazione del pensiero e complessità sintattica. Proponiamo inoltre uno schema di valutazione completo per valutare le prestazioni dei modelli VQA su compiti cognitivi più profondi. Per affrontare i limiti dei modelli video-linguistici (VLM) esistenti, introduciamo un modulo di potenziamento agentico, Agentic Choice Enhancement (ACE), che migliora le capacità di ragionamento del modello post-addestramento fino al 25%. Il nostro lavoro contribuisce a far progredire la comprensione cinematografica nei sistemi di intelligenza artificiale e fornisce preziose intuizioni sulle capacità e i limiti degli attuali modelli VQA quando affrontano domande più complesse e sfumate sui contenuti cinematografici. La nostra pagina del progetto, il dataset e il codice sono disponibili all'indirizzo https://joslefaure.github.io/assets/html/moviecore.html.
English
This paper introduces MovieCORE, a novel video question answering (VQA) dataset designed to probe deeper cognitive understanding of movie content. Unlike existing datasets that focus on surface-level comprehension, MovieCORE emphasizes questions that engage System-2 thinking while remaining specific to the video material. We present an innovative agentic brainstorming approach, utilizing multiple large language models (LLMs) as thought agents to generate and refine high-quality question-answer pairs. To evaluate dataset quality, we develop a set of cognitive tests assessing depth, thought-provocation potential, and syntactic complexity. We also propose a comprehensive evaluation scheme for assessing VQA model performance on deeper cognitive tasks. To address the limitations of existing video-language models (VLMs), we introduce an agentic enhancement module, Agentic Choice Enhancement (ACE), which improves model reasoning capabilities post-training by up to 25%. Our work contributes to advancing movie understanding in AI systems and provides valuable insights into the capabilities and limitations of current VQA models when faced with more challenging, nuanced questions about cinematic content. Our project page, dataset and code can be found at https://joslefaure.github.io/assets/html/moviecore.html.
PDF62August 27, 2025