MathNet: een wereldwijde multimodale benchmark voor wiskundig redeneren en informatiezoeken

Samenvatting

Wiskundig probleemoplossen blijft een uitdagende test van redeneervermogen voor grote taal- en multimodale modellen, maar bestaande benchmarks zijn beperkt in omvang, taaldekking en taakdiversiteit. Wij introduceren MathNet, een hoogwaardige, grootschalige, multimodale en meertalige dataset van Olympiade-niveau wiskundeproblemen, samen met een benchmark voor het evalueren van wiskundig redeneren in generatieve modellen en wiskundige retrievial in op embedding gebaseerde systemen. MathNet bestrijkt 47 landen, 17 talen en twee decennia aan wedstrijden, en omvat 30.676 door experts geschreven problemen met oplossingen uit diverse domeinen. Naast de kerndataset construeren we een retrieval-benchmark bestaande uit wiskundig equivalente en structureel vergelijkbare probleemparen, samengesteld door menselijke experts. MathNet ondersteunt drie taken: (i) Probleemoplossing, (ii) Wiskundebewuste Retrieval, en (iii) Retrieval-augmented Probleemoplossing. Experimentele resultaten tonen aan dat zelfs state-of-the-art redeneermodellen (78,4% voor Gemini-3.1-Pro en 69,3% voor GPT-5) uitdagingen blijven ondervinden, terwijl embeddingmodellen moeite hebben om equivalente problemen te retrieven. We tonen verder aan dat de prestaties van retrieval-augmented generation zeer gevoelig zijn voor de retrievalkwaliteit; DeepSeek-V3.2-Speciale behaalt bijvoorbeeld winsten tot 12% en scoort daarmee het hoogst op de benchmark. MathNet biedt de grootste hoogwaardige Olympiade-dataset samen met de eerste benchmark voor het evalueren van wiskundige probleemretrieval, en we geven zowel de dataset als de benchmark openbaar vrij op https://mathnet.mit.edu.

English

Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts. MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.

MathNet: een wereldwijde multimodale benchmark voor wiskundig redeneren en informatiezoeken

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Samenvatting

Support