MathNet: um Benchmark Global Multimodal para Raciocínio e Recuperação Matemática

Resumo

A resolução de problemas matemáticos continua a ser um teste desafiador de raciocínio para modelos de linguagem grandes e multimodais, mas os *benchmarks* existentes são limitados em tamanho, cobertura linguística e diversidade de tarefas. Apresentamos o MathNet, um conjunto de dados multimodal e multilíngue de alta qualidade e grande escala, composto por problemas matemáticos de nível olímpico, juntamente com um *benchmark* para avaliar o raciocínio matemático em modelos generativos e a recuperação matemática em sistemas baseados em incorporações (*embeddings*). O MathNet abrange 47 países, 17 idiomas e duas décadas de competições, compreendendo 30.676 problemas elaborados por especialistas, com soluções em diversas áreas. Além do conjunto de dados principal, construímos um *benchmark* de recuperação composto por pares de problemas matematicamente equivalentes e estruturalmente semelhantes, selecionados por especialistas humanos. O MathNet suporta três tarefas: (i) Resolução de Problemas, (ii) Recuperação com Consciência Matemática (*Math-Aware Retrieval*) e (iii) Resolução de Problemas Aumentada por Recuperação (*Retrieval-Augmented Problem Solving*). Resultados experimentais mostram que mesmo os modelos de raciocínio mais avançados (78,4% para o Gemini-3.1-Pro e 69,3% para o GPT-5) continuam a ser desafiados, enquanto os modelos de incorporação têm dificuldade em recuperar problemas equivalentes. Mostramos ainda que o desempenho da geração aumentada por recuperação é altamente sensível à qualidade da recuperação; por exemplo, o DeepSeek-V3.2-Speciale obtém ganhos de até 12%, alcançando as pontuações mais altas no *benchmark*. O MathNet fornece o maior conjunto de dados olímpicos de alta qualidade, juntamente com o primeiro *benchmark* para avaliar a recuperação de problemas matemáticos, e disponibilizamos publicamente tanto o conjunto de dados como o *benchmark* em https://mathnet.mit.edu.

English

Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts. MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.

MathNet: um Benchmark Global Multimodal para Raciocínio e Recuperação Matemática

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Resumo

Support