VideoMathQA: Valutazione del Ragionamento Matematico tramite Comprensione Multimodale nei Video
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos
June 5, 2025
Autori: Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan
cs.AI
Abstract
Il ragionamento matematico in contesti video del mondo reale presenta una sfida fondamentalmente diversa rispetto alle immagini statiche o al testo. Richiede l'interpretazione di informazioni visive dettagliate, la lettura accurata di testo scritto a mano o digitale e l'integrazione di segnali vocali, spesso dispersi in modo non lineare nel tempo. In tali contesti multimodali, il successo non dipende solo dalla percezione, ma dall'identificazione selettiva e dall'integrazione dei dettagli contestuali corretti da un flusso ricco e rumoroso di contenuti. A tal fine, introduciamo VideoMathQA, un benchmark progettato per valutare se i modelli possono eseguire un ragionamento cross-modale temporalmente esteso sui video. Il benchmark copre 10 diversi domini matematici, includendo video che vanno da 10 secondi a oltre 1 ora. Richiede ai modelli di interpretare contenuti visivi strutturati, comprendere narrazioni didattiche e fondare congiuntamente concetti attraverso le modalità visiva, audio e testuale. Impieghiamo esperti di livello universitario per garantire un'elevata qualità, con un totale di oltre 920 ore-uomo di annotazione. Per riflettere scenari del mondo reale, le domande sono progettate attorno a tre sfide di ragionamento principali: risoluzione diretta dei problemi, in cui le risposte sono basate sulla domanda presentata; trasferimento concettuale, che richiede l'applicazione di metodi appresi a nuovi problemi; e comprensione didattica approfondita, che implica un ragionamento a più passi su spiegazioni estese e soluzioni parzialmente elaborate. Ogni domanda include annotazioni di ragionamento a più passi, consentendo una diagnosi dettagliata delle capacità del modello. Attraverso questo benchmark, evidenziamo i limiti degli approcci esistenti e stabiliamo un quadro di valutazione sistematico per i modelli che devono ragionare, piuttosto che semplicemente percepire, in contesti di problemi matematici temporalmente estesi e ricchi di modalità. Il nostro benchmark e il codice di valutazione sono disponibili all'indirizzo: https://mbzuai-oryx.github.io/VideoMathQA
English
Mathematical reasoning in real-world video settings presents a fundamentally
different challenge than in static images or text. It requires interpreting
fine-grained visual information, accurately reading handwritten or digital
text, and integrating spoken cues, often dispersed non-linearly over time. In
such multimodal contexts, success hinges not just on perception, but on
selectively identifying and integrating the right contextual details from a
rich and noisy stream of content. To this end, we introduce VideoMathQA, a
benchmark designed to evaluate whether models can perform such temporally
extended cross-modal reasoning on videos. The benchmark spans 10 diverse
mathematical domains, covering videos ranging from 10 seconds to over 1 hour.
It requires models to interpret structured visual content, understand
instructional narratives, and jointly ground concepts across visual, audio, and
textual modalities. We employ graduate-level experts to ensure high quality,
totaling over 920 man-hours of annotation. To reflect real-world scenarios,
questions are designed around three core reasoning challenges: direct problem
solving, where answers are grounded in the presented question; conceptual
transfer, which requires applying learned methods to new problems; and deep
instructional comprehension, involving multi-step reasoning over extended
explanations and partially worked-out solutions. Each question includes
multi-step reasoning annotations, enabling fine-grained diagnosis of model
capabilities. Through this benchmark, we highlight the limitations of existing
approaches and establish a systematic evaluation framework for models that must
reason, rather than merely perceive, across temporally extended and
modality-rich mathematical problem settings. Our benchmark and evaluation code
are available at: https://mbzuai-oryx.github.io/VideoMathQA