ChatPaper.aiChatPaper

VideoMathQA: Оценка математического мышления через мультимодальное понимание в видеороликах

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

June 5, 2025
Авторы: Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan
cs.AI

Аннотация

Математические рассуждения в реальных видеосценариях представляют собой принципиально иную задачу по сравнению со статичными изображениями или текстом. Они требуют интерпретации детальной визуальной информации, точного чтения рукописного или цифрового текста и интеграции устных подсказок, которые часто распределены нелинейно во времени. В таких мультимодальных контекстах успех зависит не только от восприятия, но и от избирательного выявления и интеграции правильных контекстуальных деталей из богатого и зашумленного потока контента. С этой целью мы представляем VideoMathQA — эталонный набор данных, предназначенный для оценки способности моделей выполнять такие временно протяженные кросс-модальные рассуждения на видео. Этот набор охватывает 10 разнообразных математических областей, включая видео продолжительностью от 10 секунд до более чем 1 часа. Он требует от моделей интерпретации структурированного визуального контента, понимания обучающих нарративов и совместного закрепления концепций в визуальной, аудио и текстовой модальностях. Мы привлекаем экспертов уровня выпускников для обеспечения высокого качества, что в сумме составляет более 920 человеко-часов аннотирования. Чтобы отразить реальные сценарии, вопросы разработаны вокруг трех основных задач рассуждения: прямое решение задач, где ответы основаны на представленном вопросе; концептуальный перенос, который требует применения изученных методов к новым задачам; и глубокое понимание инструкций, включающее многошаговые рассуждения на основе расширенных объяснений и частично решенных задач. Каждый вопрос сопровождается аннотациями многошаговых рассуждений, что позволяет проводить детальный анализ возможностей моделей. С помощью этого набора данных мы подчеркиваем ограничения существующих подходов и устанавливаем систематическую структуру оценки для моделей, которые должны рассуждать, а не просто воспринимать, в условиях временно протяженных и мультимодальных математических задач. Наш набор данных и код для оценки доступны по адресу: https://mbzuai-oryx.github.io/VideoMathQA.
English
Mathematical reasoning in real-world video settings presents a fundamentally different challenge than in static images or text. It requires interpreting fine-grained visual information, accurately reading handwritten or digital text, and integrating spoken cues, often dispersed non-linearly over time. In such multimodal contexts, success hinges not just on perception, but on selectively identifying and integrating the right contextual details from a rich and noisy stream of content. To this end, we introduce VideoMathQA, a benchmark designed to evaluate whether models can perform such temporally extended cross-modal reasoning on videos. The benchmark spans 10 diverse mathematical domains, covering videos ranging from 10 seconds to over 1 hour. It requires models to interpret structured visual content, understand instructional narratives, and jointly ground concepts across visual, audio, and textual modalities. We employ graduate-level experts to ensure high quality, totaling over 920 man-hours of annotation. To reflect real-world scenarios, questions are designed around three core reasoning challenges: direct problem solving, where answers are grounded in the presented question; conceptual transfer, which requires applying learned methods to new problems; and deep instructional comprehension, involving multi-step reasoning over extended explanations and partially worked-out solutions. Each question includes multi-step reasoning annotations, enabling fine-grained diagnosis of model capabilities. Through this benchmark, we highlight the limitations of existing approaches and establish a systematic evaluation framework for models that must reason, rather than merely perceive, across temporally extended and modality-rich mathematical problem settings. Our benchmark and evaluation code are available at: https://mbzuai-oryx.github.io/VideoMathQA
PDF221June 6, 2025