VideoMathQA: Evaluación del Razonamiento Matemático mediante la Comprensión Multimodal en Videos
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos
June 5, 2025
Autores: Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan
cs.AI
Resumen
El razonamiento matemático en entornos de video del mundo real presenta un desafío fundamentalmente diferente al de las imágenes estáticas o el texto. Requiere interpretar información visual detallada, leer con precisión texto manuscrito o digital, e integrar pistas habladas, a menudo dispersas de manera no lineal en el tiempo. En tales contextos multimodales, el éxito no depende únicamente de la percepción, sino de identificar e integrar selectivamente los detalles contextuales correctos de un flujo rico y ruidoso de contenido. Con este fin, presentamos VideoMathQA, un punto de referencia diseñado para evaluar si los modelos pueden realizar este tipo de razonamiento multimodal extendido temporalmente en videos. El punto de referencia abarca 10 dominios matemáticos diversos, cubriendo videos que van desde 10 segundos hasta más de una hora. Requiere que los modelos interpreten contenido visual estructurado, comprendan narrativas instructivas y fundamenten conceptos conjuntamente a través de las modalidades visual, auditiva y textual. Empleamos expertos de nivel de posgrado para garantizar alta calidad, totalizando más de 920 horas-hombre de anotación. Para reflejar escenarios del mundo real, las preguntas están diseñadas en torno a tres desafíos centrales de razonamiento: resolución directa de problemas, donde las respuestas se basan en la pregunta presentada; transferencia conceptual, que requiere aplicar métodos aprendidos a nuevos problemas; y comprensión profunda de instrucciones, que implica razonamiento de múltiples pasos sobre explicaciones extendidas y soluciones parcialmente desarrolladas. Cada pregunta incluye anotaciones de razonamiento de múltiples pasos, permitiendo un diagnóstico detallado de las capacidades del modelo. A través de este punto de referencia, destacamos las limitaciones de los enfoques existentes y establecemos un marco de evaluación sistemático para modelos que deben razonar, en lugar de simplemente percibir, en entornos de problemas matemáticos ricos en modalidades y extendidos temporalmente. Nuestro punto de referencia y código de evaluación están disponibles en: https://mbzuai-oryx.github.io/VideoMathQA
English
Mathematical reasoning in real-world video settings presents a fundamentally
different challenge than in static images or text. It requires interpreting
fine-grained visual information, accurately reading handwritten or digital
text, and integrating spoken cues, often dispersed non-linearly over time. In
such multimodal contexts, success hinges not just on perception, but on
selectively identifying and integrating the right contextual details from a
rich and noisy stream of content. To this end, we introduce VideoMathQA, a
benchmark designed to evaluate whether models can perform such temporally
extended cross-modal reasoning on videos. The benchmark spans 10 diverse
mathematical domains, covering videos ranging from 10 seconds to over 1 hour.
It requires models to interpret structured visual content, understand
instructional narratives, and jointly ground concepts across visual, audio, and
textual modalities. We employ graduate-level experts to ensure high quality,
totaling over 920 man-hours of annotation. To reflect real-world scenarios,
questions are designed around three core reasoning challenges: direct problem
solving, where answers are grounded in the presented question; conceptual
transfer, which requires applying learned methods to new problems; and deep
instructional comprehension, involving multi-step reasoning over extended
explanations and partially worked-out solutions. Each question includes
multi-step reasoning annotations, enabling fine-grained diagnosis of model
capabilities. Through this benchmark, we highlight the limitations of existing
approaches and establish a systematic evaluation framework for models that must
reason, rather than merely perceive, across temporally extended and
modality-rich mathematical problem settings. Our benchmark and evaluation code
are available at: https://mbzuai-oryx.github.io/VideoMathQA