ChatPaper.aiChatPaper

VideoMathQA: Benchmarking mathematischen Denkens durch multimodales Verständnis in Videos

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

June 5, 2025
Autoren: Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan
cs.AI

Zusammenfassung

Mathematisches Denken in realen Video-Szenarien stellt eine grundlegend andere Herausforderung dar als in statischen Bildern oder Texten. Es erfordert die Interpretation feingranularer visueller Informationen, das präzise Lesen von handgeschriebenem oder digitalem Text sowie die Integration von gesprochenen Hinweisen, die oft nicht-linear über die Zeit verteilt sind. In solchen multimodalen Kontexten hängt der Erfolg nicht nur von der Wahrnehmung ab, sondern auch von der selektiven Identifizierung und Integration der richtigen kontextuellen Details aus einem reichhaltigen und verrauschten Datenstrom. Zu diesem Zweck stellen wir VideoMathQA vor, einen Benchmark, der evaluiert, ob Modelle eine solche zeitlich erweiterte, cross-modale Argumentation in Videos durchführen können. Der Benchmark umfasst 10 verschiedene mathematische Domänen und deckt Videos von 10 Sekunden bis über eine Stunde ab. Er erfordert, dass Modelle strukturierte visuelle Inhalte interpretieren, instruktionale Erzählungen verstehen und Konzepte über visuelle, auditive und textuelle Modalitäten hinweg gemeinsam verankern. Wir setzen Experten auf Graduiertenebene ein, um eine hohe Qualität sicherzustellen, was insgesamt über 920 Arbeitsstunden an Annotationen umfasst. Um reale Szenarien widerzuspiegeln, sind die Fragen um drei zentrale Argumentationsherausforderungen herum gestaltet: direktes Problemlösen, bei dem die Antworten in der gestellten Frage verankert sind; konzeptioneller Transfer, der die Anwendung erlernter Methoden auf neue Probleme erfordert; und tiefes instruktionales Verständnis, das mehrstufiges Denken über längere Erklärungen und teilweise ausgearbeitete Lösungen beinhaltet. Jede Frage enthält mehrstufige Argumentationsannotationen, die eine feingranulare Diagnose der Modellfähigkeiten ermöglichen. Durch diesen Benchmark heben wir die Grenzen bestehender Ansätze hervor und etablieren ein systematisches Evaluationsframework für Modelle, die über zeitlich erweiterte und modalitätsreiche mathematische Problemszenarien hinweg argumentieren müssen, anstatt sie lediglich wahrzunehmen. Unser Benchmark und der Evaluationscode sind verfügbar unter: https://mbzuai-oryx.github.io/VideoMathQA
English
Mathematical reasoning in real-world video settings presents a fundamentally different challenge than in static images or text. It requires interpreting fine-grained visual information, accurately reading handwritten or digital text, and integrating spoken cues, often dispersed non-linearly over time. In such multimodal contexts, success hinges not just on perception, but on selectively identifying and integrating the right contextual details from a rich and noisy stream of content. To this end, we introduce VideoMathQA, a benchmark designed to evaluate whether models can perform such temporally extended cross-modal reasoning on videos. The benchmark spans 10 diverse mathematical domains, covering videos ranging from 10 seconds to over 1 hour. It requires models to interpret structured visual content, understand instructional narratives, and jointly ground concepts across visual, audio, and textual modalities. We employ graduate-level experts to ensure high quality, totaling over 920 man-hours of annotation. To reflect real-world scenarios, questions are designed around three core reasoning challenges: direct problem solving, where answers are grounded in the presented question; conceptual transfer, which requires applying learned methods to new problems; and deep instructional comprehension, involving multi-step reasoning over extended explanations and partially worked-out solutions. Each question includes multi-step reasoning annotations, enabling fine-grained diagnosis of model capabilities. Through this benchmark, we highlight the limitations of existing approaches and establish a systematic evaluation framework for models that must reason, rather than merely perceive, across temporally extended and modality-rich mathematical problem settings. Our benchmark and evaluation code are available at: https://mbzuai-oryx.github.io/VideoMathQA
PDF221June 6, 2025