VideoMathQA: Avaliação do Raciocínio Matemático por meio da Compreensão Multimodal em Vídeos
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos
June 5, 2025
Autores: Hanoona Rasheed, Abdelrahman Shaker, Anqi Tang, Muhammad Maaz, Ming-Hsuan Yang, Salman Khan, Fahad Khan
cs.AI
Resumo
O raciocínio matemático em cenários de vídeo do mundo real apresenta um desafio fundamentalmente diferente do que em imagens estáticas ou texto. Ele requer a interpretação de informações visuais detalhadas, a leitura precisa de textos manuscritos ou digitais, e a integração de pistas faladas, frequentemente dispersas de forma não linear ao longo do tempo. Nesses contextos multimodais, o sucesso depende não apenas da percepção, mas da identificação seletiva e integração dos detalhes contextuais corretos de um fluxo rico e ruidoso de conteúdo. Para esse fim, introduzimos o VideoMathQA, um benchmark projetado para avaliar se os modelos podem realizar esse tipo de raciocínio multimodal temporalmente estendido em vídeos. O benchmark abrange 10 domínios matemáticos diversos, cobrindo vídeos que variam de 10 segundos a mais de 1 hora. Ele exige que os modelos interpretem conteúdo visual estruturado, compreendam narrativas instrucionais e fundamentem conceitos conjuntamente nas modalidades visual, auditiva e textual. Empregamos especialistas de nível de pós-graduação para garantir alta qualidade, totalizando mais de 920 horas-homem de anotação. Para refletir cenários do mundo real, as perguntas são projetadas em torno de três desafios centrais de raciocínio: resolução direta de problemas, onde as respostas são fundamentadas na pergunta apresentada; transferência conceitual, que requer a aplicação de métodos aprendidos a novos problemas; e compreensão profunda de instruções, envolvendo raciocínio de múltiplos passos sobre explicações estendidas e soluções parcialmente elaboradas. Cada pergunta inclui anotações de raciocínio de múltiplos passos, permitindo um diagnóstico detalhado das capacidades dos modelos. Através deste benchmark, destacamos as limitações das abordagens existentes e estabelecemos um framework de avaliação sistemático para modelos que devem raciocinar, em vez de apenas perceber, em cenários de problemas matemáticos temporalmente estendidos e ricos em modalidades. Nosso benchmark e código de avaliação estão disponíveis em: https://mbzuai-oryx.github.io/VideoMathQA
English
Mathematical reasoning in real-world video settings presents a fundamentally
different challenge than in static images or text. It requires interpreting
fine-grained visual information, accurately reading handwritten or digital
text, and integrating spoken cues, often dispersed non-linearly over time. In
such multimodal contexts, success hinges not just on perception, but on
selectively identifying and integrating the right contextual details from a
rich and noisy stream of content. To this end, we introduce VideoMathQA, a
benchmark designed to evaluate whether models can perform such temporally
extended cross-modal reasoning on videos. The benchmark spans 10 diverse
mathematical domains, covering videos ranging from 10 seconds to over 1 hour.
It requires models to interpret structured visual content, understand
instructional narratives, and jointly ground concepts across visual, audio, and
textual modalities. We employ graduate-level experts to ensure high quality,
totaling over 920 man-hours of annotation. To reflect real-world scenarios,
questions are designed around three core reasoning challenges: direct problem
solving, where answers are grounded in the presented question; conceptual
transfer, which requires applying learned methods to new problems; and deep
instructional comprehension, involving multi-step reasoning over extended
explanations and partially worked-out solutions. Each question includes
multi-step reasoning annotations, enabling fine-grained diagnosis of model
capabilities. Through this benchmark, we highlight the limitations of existing
approaches and establish a systematic evaluation framework for models that must
reason, rather than merely perceive, across temporally extended and
modality-rich mathematical problem settings. Our benchmark and evaluation code
are available at: https://mbzuai-oryx.github.io/VideoMathQA