VideoMathQA: Оценка математического мышления через мультимодальное понимание в видеороликах
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos
June 5, 2025
Авторы: Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan
cs.AI
Аннотация
Математические рассуждения в реальных видеосценариях представляют собой принципиально иную задачу по сравнению со статичными изображениями или текстом. Они требуют интерпретации детальной визуальной информации, точного чтения рукописного или цифрового текста и интеграции устных подсказок, которые часто распределены нелинейно во времени. В таких мультимодальных контекстах успех зависит не только от восприятия, но и от избирательного выявления и интеграции правильных контекстуальных деталей из богатого и зашумленного потока контента. С этой целью мы представляем VideoMathQA — эталонный набор данных, предназначенный для оценки способности моделей выполнять такие временно протяженные кросс-модальные рассуждения на видео. Этот набор охватывает 10 разнообразных математических областей, включая видео продолжительностью от 10 секунд до более чем 1 часа. Он требует от моделей интерпретации структурированного визуального контента, понимания обучающих нарративов и совместного закрепления концепций в визуальной, аудио и текстовой модальностях. Мы привлекаем экспертов уровня выпускников для обеспечения высокого качества, что в сумме составляет более 920 человеко-часов аннотирования. Чтобы отразить реальные сценарии, вопросы разработаны вокруг трех основных задач рассуждения: прямое решение задач, где ответы основаны на представленном вопросе; концептуальный перенос, который требует применения изученных методов к новым задачам; и глубокое понимание инструкций, включающее многошаговые рассуждения на основе расширенных объяснений и частично решенных задач. Каждый вопрос сопровождается аннотациями многошаговых рассуждений, что позволяет проводить детальный анализ возможностей моделей. С помощью этого набора данных мы подчеркиваем ограничения существующих подходов и устанавливаем систематическую структуру оценки для моделей, которые должны рассуждать, а не просто воспринимать, в условиях временно протяженных и мультимодальных математических задач. Наш набор данных и код для оценки доступны по адресу: https://mbzuai-oryx.github.io/VideoMathQA.
English
Mathematical reasoning in real-world video settings presents a fundamentally
different challenge than in static images or text. It requires interpreting
fine-grained visual information, accurately reading handwritten or digital
text, and integrating spoken cues, often dispersed non-linearly over time. In
such multimodal contexts, success hinges not just on perception, but on
selectively identifying and integrating the right contextual details from a
rich and noisy stream of content. To this end, we introduce VideoMathQA, a
benchmark designed to evaluate whether models can perform such temporally
extended cross-modal reasoning on videos. The benchmark spans 10 diverse
mathematical domains, covering videos ranging from 10 seconds to over 1 hour.
It requires models to interpret structured visual content, understand
instructional narratives, and jointly ground concepts across visual, audio, and
textual modalities. We employ graduate-level experts to ensure high quality,
totaling over 920 man-hours of annotation. To reflect real-world scenarios,
questions are designed around three core reasoning challenges: direct problem
solving, where answers are grounded in the presented question; conceptual
transfer, which requires applying learned methods to new problems; and deep
instructional comprehension, involving multi-step reasoning over extended
explanations and partially worked-out solutions. Each question includes
multi-step reasoning annotations, enabling fine-grained diagnosis of model
capabilities. Through this benchmark, we highlight the limitations of existing
approaches and establish a systematic evaluation framework for models that must
reason, rather than merely perceive, across temporally extended and
modality-rich mathematical problem settings. Our benchmark and evaluation code
are available at: https://mbzuai-oryx.github.io/VideoMathQA