MathNet: un punto de referencia multimodal global para el razonamiento y la recuperación matemática

Resumen

La resolución de problemas matemáticos sigue siendo una prueba desafiante de razonamiento para los modelos lingüísticos y multimodales de gran escala; sin embargo, los puntos de referencia existentes son limitados en tamaño, cobertura lingüística y diversidad de tareas. Presentamos MathNet, un conjunto de datos multimodal y multilingüe de alta calidad y gran escala, compuesto por problemas matemáticos de nivel olímpico, junto con un benchmark para evaluar el razonamiento matemático en modelos generativos y la recuperación matemática en sistemas basados en embeddings. MathNet abarca 47 países, 17 idiomas y dos décadas de competiciones, e incluye 30.676 problemas creados por expertos con sus soluciones en diversos dominios. Además del conjunto de datos principal, construimos un benchmark de recuperación que consiste en pares de problemas matemáticamente equivalentes y estructuralmente similares, seleccionados por expertos humanos. MathNet admite tres tareas: (i) Resolución de Problemas, (ii) Recuperación con Conciencia Matemática y (iii) Resolución de Problemas Aumentada por Recuperación. Los resultados experimentales muestran que incluso los modelos de razonamiento más avanzados (78,4% para Gemini-3.1-Pro y 69,3% para GPT-5) siguen enfrentándose a dificultades, mientras que los modelos de embeddings tienen problemas para recuperar problemas equivalentes. Además, demostramos que el rendimiento de la generación aumentada por recuperación es muy sensible a la calidad de la recuperación; por ejemplo, DeepSeek-V3.2-Speciale logra mejoras de hasta el 12%, alcanzando las puntuaciones más altas en el benchmark. MathNet proporciona el conjunto de datos olímpico más grande y de mayor calidad, junto con el primer benchmark para evaluar la recuperación de problemas matemáticos, y publicamos tanto el conjunto de datos como el benchmark en https://mathnet.mit.edu.

English

Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts. MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.

MathNet: un punto de referencia multimodal global para el razonamiento y la recuperación matemática

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Resumen

Support