ChatPaper.aiChatPaper

MovieCORE: Когнитивное рассуждение в фильмах

MovieCORE: COgnitive REasoning in Movies

August 26, 2025
Авторы: Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu
cs.AI

Аннотация

В данной статье представлен MovieCORE — новый набор данных для ответов на вопросы по видео (Video Question Answering, VQA), предназначенный для исследования более глубокого когнитивного понимания содержания фильмов. В отличие от существующих наборов данных, ориентированных на поверхностное понимание, MovieCORE делает акцент на вопросах, которые вовлекают мышление Системы 2, оставаясь при этом специфичными к видеоматериалу. Мы предлагаем инновационный подход агентного мозгового штурма, использующий несколько крупных языковых моделей (LLM) в качестве мыслительных агентов для генерации и улучшения высококачественных пар вопрос-ответ. Для оценки качества набора данных мы разработали набор когнитивных тестов, оценивающих глубину, потенциал провокации мысли и синтаксическую сложность. Также мы предлагаем комплексную схему оценки для анализа производительности моделей VQA на задачах, требующих более глубокого когнитивного понимания. Чтобы устранить ограничения существующих видео-языковых моделей (VLM), мы вводим модуль агентного улучшения — Agentic Choice Enhancement (ACE), который повышает способности модели к рассуждению после обучения на величину до 25%. Наша работа способствует продвижению понимания фильмов в системах искусственного интеллекта и предоставляет ценные инсайты о возможностях и ограничениях современных моделей VQA при работе с более сложными и тонкими вопросами о кинематографическом контенте. Страница проекта, набор данных и код доступны по адресу https://joslefaure.github.io/assets/html/moviecore.html.
English
This paper introduces MovieCORE, a novel video question answering (VQA) dataset designed to probe deeper cognitive understanding of movie content. Unlike existing datasets that focus on surface-level comprehension, MovieCORE emphasizes questions that engage System-2 thinking while remaining specific to the video material. We present an innovative agentic brainstorming approach, utilizing multiple large language models (LLMs) as thought agents to generate and refine high-quality question-answer pairs. To evaluate dataset quality, we develop a set of cognitive tests assessing depth, thought-provocation potential, and syntactic complexity. We also propose a comprehensive evaluation scheme for assessing VQA model performance on deeper cognitive tasks. To address the limitations of existing video-language models (VLMs), we introduce an agentic enhancement module, Agentic Choice Enhancement (ACE), which improves model reasoning capabilities post-training by up to 25%. Our work contributes to advancing movie understanding in AI systems and provides valuable insights into the capabilities and limitations of current VQA models when faced with more challenging, nuanced questions about cinematic content. Our project page, dataset and code can be found at https://joslefaure.github.io/assets/html/moviecore.html.
PDF31August 27, 2025