MathNet : un benchmark multimodal mondial pour le raisonnement et la recherche mathématiques

Résumé

La résolution de problèmes mathématiques reste un test de raisonnement difficile pour les grands modèles linguistiques et multimodaux, mais les bancs d'essai existants sont limités en taille, en couverture linguistique et en diversité des tâches. Nous présentons MathNet, un ensemble de données multimodal et multilingue, de grande taille et de haute qualité, composé de problèmes mathématiques de niveau Olympiade, ainsi qu'un banc d'essai pour évaluer le raisonnement mathématique dans les modèles génératifs et la recherche mathématique dans les systèmes basés sur des embeddings. MathNet couvre 47 pays, 17 langues et deux décennies de compétitions, comprenant 30 676 problèmes rédigés par des experts avec leurs solutions dans divers domaines. En plus de l'ensemble de données principal, nous construisons un banc d'essai de recherche consistant en des paires de problèmes mathématiquement équivalents et structurellement similaires, sélectionnées par des experts humains. MathNet prend en charge trois tâches : (i) la Résolution de problèmes, (ii) la Recherche sensible aux mathématiques, et (iii) la Résolution de problèmes augmentée par la recherche. Les résultats expérimentaux montrent que même les modèles de raisonnement les plus avancés (78,4 % pour Gemini-3.1-Pro et 69,3 % pour GPT-5) restent mis en difficulté, tandis que les modèles d'embedding peinent à retrouver des problèmes équivalents. Nous montrons en outre que les performances de la génération augmentée par la recherche sont très sensibles à la qualité de la recherche ; par exemple, DeepSeek-V3.2-Speciale réalise des gains allant jusqu'à 12 %, obtenant les scores les plus élevés sur le banc d'essai. MathNet fournit le plus grand ensemble de données de haute qualité sur les Olympiades ainsi que le premier banc d'essai pour évaluer la recherche de problèmes mathématiques. Nous rendons publics l'ensemble de données et le banc d'essai à l'adresse https://mathnet.mit.edu.

English

Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts. MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.

MathNet : un benchmark multimodal mondial pour le raisonnement et la recherche mathématiques

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Résumé

Support