ChatPaper.aiChatPaper

MovieCORE: Kognitive Reasoning in Filmen

MovieCORE: COgnitive REasoning in Movies

August 26, 2025
papers.authors: Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu
cs.AI

papers.abstract

Dieses Paper stellt MovieCORE vor, einen neuartigen Video-Frage-Antwort-Datensatz (VQA), der darauf abzielt, ein tieferes kognitives Verständnis von Film-Inhalten zu erforschen. Im Gegensatz zu bestehenden Datensätzen, die sich auf oberflächliches Verständnis konzentrieren, betont MovieCORE Fragen, die System-2-Denken anregen und dabei spezifisch auf das Videomaterial bezogen bleiben. Wir präsentieren einen innovativen agentenbasierten Brainstorming-Ansatz, bei dem mehrere große Sprachmodelle (LLMs) als Denkagenten eingesetzt werden, um hochwertige Frage-Antwort-Paare zu generieren und zu verfeinern. Um die Qualität des Datensatzes zu bewerten, entwickeln wir eine Reihe von kognitiven Tests, die Tiefe, Denkanstoß-Potenzial und syntaktische Komplexität bewerten. Wir schlagen außerdem ein umfassendes Bewertungsschema vor, um die Leistung von VQA-Modellen bei tieferen kognitiven Aufgaben zu beurteilen. Um die Grenzen bestehender Video-Sprach-Modelle (VLMs) zu überwinden, führen wir ein agentenbasiertes Verbesserungsmodul ein, Agentic Choice Enhancement (ACE), das die Fähigkeiten des Modells zum logischen Schlussfolgern nach dem Training um bis zu 25% verbessert. Unsere Arbeit trägt dazu bei, das Verständnis von Filmen in KI-Systemen voranzutreiben und bietet wertvolle Einblicke in die Fähigkeiten und Grenzen aktueller VQA-Modelle, wenn sie mit anspruchsvolleren, nuancenreicheren Fragen zu filmischem Inhalt konfrontiert werden. Unsere Projektseite, der Datensatz und der Code sind unter https://joslefaure.github.io/assets/html/moviecore.html verfügbar.
English
This paper introduces MovieCORE, a novel video question answering (VQA) dataset designed to probe deeper cognitive understanding of movie content. Unlike existing datasets that focus on surface-level comprehension, MovieCORE emphasizes questions that engage System-2 thinking while remaining specific to the video material. We present an innovative agentic brainstorming approach, utilizing multiple large language models (LLMs) as thought agents to generate and refine high-quality question-answer pairs. To evaluate dataset quality, we develop a set of cognitive tests assessing depth, thought-provocation potential, and syntactic complexity. We also propose a comprehensive evaluation scheme for assessing VQA model performance on deeper cognitive tasks. To address the limitations of existing video-language models (VLMs), we introduce an agentic enhancement module, Agentic Choice Enhancement (ACE), which improves model reasoning capabilities post-training by up to 25%. Our work contributes to advancing movie understanding in AI systems and provides valuable insights into the capabilities and limitations of current VQA models when faced with more challenging, nuanced questions about cinematic content. Our project page, dataset and code can be found at https://joslefaure.github.io/assets/html/moviecore.html.
PDF31August 27, 2025