MathNet: 数学的推論と検索のためのグローバルマルチモーダルベンチマーク
MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval
April 20, 2026
著者: Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba
cs.AI
要旨
数学的問題解決は、大規模言語モデルやマルチモーダルモデルにとって依然として推論能力の難しい試験領域であるが、既存のベンチマークはデータサイズ、言語カバレッジ、課題の多様性において限界がある。本研究では、MathNetを紹介する。これは生成モデルの数学的推論評価と、埋め込みベースシステムの数学的検索評価のための、高品質で大規模、マルチモーダル、多言語のオリンピアード級数学問題データセット及びベンチマークである。MathNetは47カ国、17言語、20年にわたる競技会を網羅し、様々な分野にわたる30,676問の専門家執筆問題と解答を含む。コアデータセットに加えて、人間の専門家によって選定された数学的に等価かつ構造的に類似した問題ペアから構成される検索ベンチマークを構築した。
MathNetは3つのタスクをサポートする:(i) 問題解決、(ii) 数学的検索、(iii) 検索拡張問題解決。実験結果では、最先端の推論モデル(Gemini-3.1-Proで78.4%、GPT-5で69.3%)でさえ依然として課題が残り、埋め込みモデルは等価問題の検索に苦戦することが示された。さらに、検索拡張生成の性能は検索品質に強く影響され、例えばDeepSeek-V3.2-Specialeは最大12%の向上を達成し、ベンチマークで最高スコアを獲得した。MathNetは最高品質の最大規模の数学オリンピアードデータセットと、数学的問題検索を評価する初のベンチマークを提供し、データセットとベンチマークはhttps://mathnet.mit.edu で公開している。
English
Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts.
MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.