VideoMathQA: Het benchmarken van wiskundig redeneren via multimodale begripsvorming in video's
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos
June 5, 2025
Auteurs: Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan
cs.AI
Samenvatting
Wiskundig redeneren in real-world video-omgevingen vormt een fundamenteel
andere uitdaging dan in statische afbeeldingen of tekst. Het vereist het
interpreteren van fijnmazige visuele informatie, het nauwkeurig lezen van
handgeschreven of digitale tekst, en het integreren van gesproken aanwijzingen,
die vaak niet-lineair in de tijd verspreid zijn. In dergelijke multimodale
contexten hangt succes niet alleen af van perceptie, maar ook van het selectief
identificeren en integreren van de juiste contextuele details uit een rijke en
ruisachtige stroom van inhoud. Hiertoe introduceren we VideoMathQA, een
benchmark ontworpen om te evalueren of modellen dergelijk tijdelijk uitgebreid
cross-modale redeneren op video's kunnen uitvoeren. De benchmark beslaat 10
diverse wiskundige domeinen, met video's variërend van 10 seconden tot meer dan
1 uur. Het vereist dat modellen gestructureerde visuele inhoud interpreteren,
instructieve verhalen begrijpen, en concepten gezamenlijk verankeren over
visuele, auditieve en tekstuele modaliteiten. We zetten experts op
master-niveau in om een hoge kwaliteit te waarborgen, wat in totaal meer dan
920 man-uren aan annotatie oplevert. Om real-world scenario's te weerspiegelen,
zijn vragen ontworpen rond drie kernredeneeruitdagingen: directe
probleemoplossing, waarbij antwoorden verankerd zijn in de gepresenteerde
vraag; conceptuele overdracht, die het toepassen van geleerde methoden op nieuwe
problemen vereist; en diepgaand instructief begrip, waarbij multi-staps
redeneren over uitgebreide uitleg en gedeeltelijk uitgewerkte oplossingen
betrokken is. Elke vraag bevat multi-staps redeneerannotaties, waardoor een
fijnmazige diagnose van modelcapaciteiten mogelijk is. Door deze benchmark
benadrukken we de beperkingen van bestaande benaderingen en stellen we een
systematisch evaluatiekader op voor modellen die moeten redeneren, in plaats van
alleen maar waarnemen, over tijdelijk uitgebreide en modaal-rijke wiskundige
probleemstellingen. Onze benchmark en evaluatiecode zijn beschikbaar op:
https://mbzuai-oryx.github.io/VideoMathQA
English
Mathematical reasoning in real-world video settings presents a fundamentally
different challenge than in static images or text. It requires interpreting
fine-grained visual information, accurately reading handwritten or digital
text, and integrating spoken cues, often dispersed non-linearly over time. In
such multimodal contexts, success hinges not just on perception, but on
selectively identifying and integrating the right contextual details from a
rich and noisy stream of content. To this end, we introduce VideoMathQA, a
benchmark designed to evaluate whether models can perform such temporally
extended cross-modal reasoning on videos. The benchmark spans 10 diverse
mathematical domains, covering videos ranging from 10 seconds to over 1 hour.
It requires models to interpret structured visual content, understand
instructional narratives, and jointly ground concepts across visual, audio, and
textual modalities. We employ graduate-level experts to ensure high quality,
totaling over 920 man-hours of annotation. To reflect real-world scenarios,
questions are designed around three core reasoning challenges: direct problem
solving, where answers are grounded in the presented question; conceptual
transfer, which requires applying learned methods to new problems; and deep
instructional comprehension, involving multi-step reasoning over extended
explanations and partially worked-out solutions. Each question includes
multi-step reasoning annotations, enabling fine-grained diagnosis of model
capabilities. Through this benchmark, we highlight the limitations of existing
approaches and establish a systematic evaluation framework for models that must
reason, rather than merely perceive, across temporally extended and
modality-rich mathematical problem settings. Our benchmark and evaluation code
are available at: https://mbzuai-oryx.github.io/VideoMathQA