MathNet: Ein globaler multimodaler Benchmark für mathematisches Denken und Informationsbeschaffung

Zusammenfassung

Das mathematische Problemlösen bleibt eine anspruchsvolle Prüfung des logischen Denkvermögens für große Sprach- und multimodale Modelle, doch bestehende Benchmarks sind in Bezug auf Umfang, Sprachabdeckung und Aufgabenvielfalt begrenzt. Wir stellen MathNet vor, einen hochwertigen, umfangreichen, multimodalen und mehrsprachigen Datensatz von Olympiade-tauglichen Mathematikproblemen zusammen mit einem Benchmark zur Bewertung mathematischen Denkens in generativen Modellen und mathematischer Retrieval-Fähigkeiten in embedding-basierten Systemen. MathNet umfasst 47 Länder, 17 Sprachen und zwei Jahrzehnte von Wettbewerben und besteht aus 30.676 von Experten verfassten Problemen mit Lösungen aus verschiedenen Domänen. Zusätzlich zum Kerndatensatz erstellen wir einen Retrieval-Benchmark, der von menschlichen Experten kuratierte Paare mathematisch äquivalenter und strukturell ähnlicher Probleme umfasst. MathNet unterstützt drei Aufgaben: (i) Problemlösung, (ii) mathematikbasiertes Retrieval und (iii) retrieval-verstärktes Problemlösen. Experimentelle Ergebnisse zeigen, dass selbst modernste Reasoning-Modelle (78,4 % für Gemini-3.1-Pro und 69,3 % für GPT-5) weiterhin vor Herausforderungen stehen, während Embedding-Modelle Schwierigkeiten haben, äquivalente Probleme zu finden. Wir zeigen ferner, dass die Leistung von Retrieval-Augmented Generation stark von der Retrieval-Qualität abhängt; so erzielt DeepSeek-V3.2-Speciale beispielsweise Gewinne von bis zu 12 % und erreicht die höchsten Werte im Benchmark. MathNet bietet den größten hochwertigen Olympiade-Datensatz zusammen mit dem ersten Benchmark zur Bewertung des Retrievals mathematischer Probleme. Wir veröffentlichen sowohl den Datensatz als auch den Benchmark öffentlich unter https://mathnet.mit.edu.

English

Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts. MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.

MathNet: Ein globaler multimodaler Benchmark für mathematisches Denken und Informationsbeschaffung

MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval

Zusammenfassung

Support