MathNet: 수학적 추론 및 검색을 위한 글로벌 멀티모달 벤치마크
MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval
April 20, 2026
저자: Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba
cs.AI
초록
수학 문제 해결은 대규모 언어 및 멀티모달 모델에게 여전히 어려운 추론 과제로 남아있지만, 기존 벤치마크는 규모, 언어 범위, 과제 다양성 측면에서 한계를 보입니다. 본 연구에서는 생성 모델의 수학적 추론 능력과 임베딩 기반 시스템의 수학적 검색 성능을 평가하기 위한 벤치마크와 함께, 올림피아드 수준의 수학 문제로 구성된 고품질 대규모 멀티모달 다국어 데이터셋인 MathNet을 소개합니다. MathNet은 47개국, 17개 언어, 20년간의 경쟁 문제를 아우르며, 다양한 영역의 해결책과 함께 전문가가 작성한 30,676개의 문제로 구성됩니다. 핵심 데이터셋 외에도 인간 전문가가 선별한 수학적으로 동등하고 구조적으로 유사한 문제 쌍으로 구성된 검색 벤치마크를 구축했습니다.
MathNet은 세 가지 과제를 지원합니다: (i) 문제 해결, (ii) 수학 인식 검색, (iii) 검색 강화 문제 해결. 실험 결과에 따르면 최첨단 추론 모델(Gemini-3.1-Pro 78.4%, GPT-5 69.3%)도 여전히 어려움을 겪는 반면, 임베딩 모델은 동등한 문제 검색에 어려움을 보입니다. 또한 검색 강화 생성 성능이 검색 품질에 매우 민감함을 확인했으며, 예를 들어 DeepSeek-V3.2-Speciale는 최대 12%의 성능 향상을 달성하며 벤치마크에서 가장 높은 점수를 기록했습니다. MathNet은 최초의 수학 문제 검색 평가 벤치마크와 함께 가장 큰 고품질 올림피아드 데이터셋을 제공하며, 데이터셋과 벤치마크를 https://mathnet.mit.edu에서 공개합니다.
English
Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts.
MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.