VideoMathQA : Évaluation du raisonnement mathématique via la compréhension multimodale dans les vidéos
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos
June 5, 2025
Auteurs: Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan
cs.AI
Résumé
Le raisonnement mathématique dans des contextes vidéo du monde réel présente un défi fondamentalement différent de celui des images statiques ou du texte. Il nécessite l'interprétation d'informations visuelles fines, la lecture précise de textes manuscrits ou numériques, et l'intégration d'indices parlés, souvent dispersés de manière non linéaire dans le temps. Dans de tels contextes multimodaux, le succès ne dépend pas seulement de la perception, mais aussi de l'identification et de l'intégration sélectives des détails contextuels pertinents à partir d'un flux de contenu riche et bruyant. À cette fin, nous introduisons VideoMathQA, un benchmark conçu pour évaluer si les modèles peuvent effectuer un raisonnement multimodal temporellement étendu sur des vidéos. Ce benchmark couvre 10 domaines mathématiques divers, incluant des vidéos allant de 10 secondes à plus d'une heure. Il exige des modèles qu'ils interprètent du contenu visuel structuré, comprennent des récits instructifs, et ancrent conjointement des concepts à travers les modalités visuelles, audio et textuelles. Nous employons des experts de niveau universitaire pour garantir une haute qualité, totalisant plus de 920 heures-homme d'annotation. Pour refléter des scénarios du monde réel, les questions sont conçues autour de trois défis de raisonnement principaux : la résolution directe de problèmes, où les réponses sont ancrées dans la question présentée ; le transfert conceptuel, qui nécessite l'application de méthodes apprises à de nouveaux problèmes ; et la compréhension approfondie des instructions, impliquant un raisonnement en plusieurs étapes sur des explications étendues et des solutions partiellement élaborées. Chaque question inclut des annotations de raisonnement en plusieurs étapes, permettant un diagnostic fin des capacités des modèles. À travers ce benchmark, nous mettons en lumière les limites des approches existantes et établissons un cadre d'évaluation systématique pour les modèles qui doivent raisonner, plutôt que simplement percevoir, dans des contextes de problèmes mathématiques temporellement étendus et riches en modalités. Notre benchmark et le code d'évaluation sont disponibles à l'adresse : https://mbzuai-oryx.github.io/VideoMathQA
English
Mathematical reasoning in real-world video settings presents a fundamentally
different challenge than in static images or text. It requires interpreting
fine-grained visual information, accurately reading handwritten or digital
text, and integrating spoken cues, often dispersed non-linearly over time. In
such multimodal contexts, success hinges not just on perception, but on
selectively identifying and integrating the right contextual details from a
rich and noisy stream of content. To this end, we introduce VideoMathQA, a
benchmark designed to evaluate whether models can perform such temporally
extended cross-modal reasoning on videos. The benchmark spans 10 diverse
mathematical domains, covering videos ranging from 10 seconds to over 1 hour.
It requires models to interpret structured visual content, understand
instructional narratives, and jointly ground concepts across visual, audio, and
textual modalities. We employ graduate-level experts to ensure high quality,
totaling over 920 man-hours of annotation. To reflect real-world scenarios,
questions are designed around three core reasoning challenges: direct problem
solving, where answers are grounded in the presented question; conceptual
transfer, which requires applying learned methods to new problems; and deep
instructional comprehension, involving multi-step reasoning over extended
explanations and partially worked-out solutions. Each question includes
multi-step reasoning annotations, enabling fine-grained diagnosis of model
capabilities. Through this benchmark, we highlight the limitations of existing
approaches and establish a systematic evaluation framework for models that must
reason, rather than merely perceive, across temporally extended and
modality-rich mathematical problem settings. Our benchmark and evaluation code
are available at: https://mbzuai-oryx.github.io/VideoMathQA