MovieCORE: Razonamiento COgnitivo en Películas
MovieCORE: COgnitive REasoning in Movies
August 26, 2025
Autores: Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu
cs.AI
Resumen
Este artículo presenta MovieCORE, un novedoso conjunto de datos de respuesta a preguntas sobre videos (VQA) diseñado para explorar una comprensión cognitiva más profunda del contenido cinematográfico. A diferencia de los conjuntos de datos existentes que se centran en la comprensión superficial, MovieCORE enfatiza preguntas que involucran el pensamiento de Sistema 2, manteniéndose específicas al material visual. Presentamos un enfoque innovador de lluvia de ideas agentiva, utilizando múltiples modelos de lenguaje de gran escala (LLMs) como agentes de pensamiento para generar y refinar pares de preguntas y respuestas de alta calidad. Para evaluar la calidad del conjunto de datos, desarrollamos una serie de pruebas cognitivas que miden la profundidad, el potencial de provocación de pensamiento y la complejidad sintáctica. También proponemos un esquema de evaluación integral para valorar el rendimiento de los modelos VQA en tareas cognitivas más profundas. Para abordar las limitaciones de los modelos actuales de lenguaje y video (VLMs), introducimos un módulo de mejora agentiva, Mejora de Elección Agentiva (ACE, por sus siglas en inglés), que aumenta hasta en un 25% las capacidades de razonamiento del modelo después del entrenamiento. Nuestro trabajo contribuye a avanzar la comprensión cinematográfica en sistemas de IA y ofrece valiosas perspectivas sobre las capacidades y limitaciones de los modelos VQA actuales al enfrentarse a preguntas más desafiantes y matizadas sobre contenido fílmico. Nuestra página del proyecto, el conjunto de datos y el código están disponibles en https://joslefaure.github.io/assets/html/moviecore.html.
English
This paper introduces MovieCORE, a novel video question answering (VQA)
dataset designed to probe deeper cognitive understanding of movie content.
Unlike existing datasets that focus on surface-level comprehension, MovieCORE
emphasizes questions that engage System-2 thinking while remaining specific to
the video material. We present an innovative agentic brainstorming approach,
utilizing multiple large language models (LLMs) as thought agents to generate
and refine high-quality question-answer pairs. To evaluate dataset quality, we
develop a set of cognitive tests assessing depth, thought-provocation
potential, and syntactic complexity. We also propose a comprehensive evaluation
scheme for assessing VQA model performance on deeper cognitive tasks. To
address the limitations of existing video-language models (VLMs), we introduce
an agentic enhancement module, Agentic Choice Enhancement (ACE), which improves
model reasoning capabilities post-training by up to 25%. Our work contributes
to advancing movie understanding in AI systems and provides valuable insights
into the capabilities and limitations of current VQA models when faced with
more challenging, nuanced questions about cinematic content. Our project page,
dataset and code can be found at
https://joslefaure.github.io/assets/html/moviecore.html.