MathNet: глобальный мультимодальный бенчмарк для математических рассуждений и поиска информации
MathNet: a Global Multimodal Benchmark for Mathematical Reasoning and Retrieval
April 20, 2026
Авторы: Shaden Alshammari, Kevin Wen, Abrar Zainal, Mark Hamilton, Navid Safaei, Sultan Albarakati, William T. Freeman, Antonio Torralba
cs.AI
Аннотация
Решение математических задач остается сложным испытанием для рассуждений больших языковых и мультимодальных моделей, однако существующие бенчмарки ограничены по размеру, языковому охвату и разнообразию задач. Мы представляем MathNet — высококачественный, крупномасштабный, мультимодальный и многоязычный набор данных задач олимпиадного уровня по математике вместе с бенчмарком для оценки математических рассуждений в генеративных моделях и математического поиска в системах на основе эмбеддингов. MathNet охватывает 47 стран, 17 языков и два десятилетия соревнований, включая 30 676 задач, созданных экспертами, с решениями из различных областей. Помимо основного набора данных, мы создали бенчмарк для поиска, состоящий из математически эквивалентных и структурно схожих пар задач, отобранных экспертами.
MathNet поддерживает три задачи: (i) решение задач, (ii) математически осознанный поиск и (iii) решение задач, усиленное поиском. Экспериментальные результаты показывают, что даже передовые модели рассуждений (78,4% для Gemini-3.1-Pro и 69,3% для GPT-5) остаются не на высоте, в то время как модели эмбеддингов с трудом находят эквивалентные задачи. Мы также демонстрируем, что производительность генерации, усиленной поиском, сильно зависит от качества поиска; например, DeepSeek-V3.2-Speciale демонстрирует улучшение до 12%, достигая наивысших результатов в бенчмарке. MathNet предоставляет крупнейший высококачественный олимпиадный набор данных вместе с первым бенчмарком для оценки поиска математических задач, и мы публично выпускаем как набор данных, так и бенчмарк по адресу https://mathnet.mit.edu.
English
Mathematical problem solving remains a challenging test of reasoning for large language and multimodal models, yet existing benchmarks are limited in size, language coverage, and task diversity. We introduce MathNet, a high-quality, large-scale, multimodal, and multilingual dataset of Olympiad-level math problems together with a benchmark for evaluating mathematical reasoning in generative models and mathematical retrieval in embedding-based systems. MathNet spans 47 countries, 17 languages, and two decades of competitions, comprising 30,676 expert-authored problems with solutions across diverse domains. In addition to the core dataset, we construct a retrieval benchmark consisting of mathematically equivalent and structurally similar problem pairs curated by human experts.
MathNet supports three tasks: (i) Problem Solving, (ii) Math-Aware Retrieval, and (iii) Retrieval-Augmented Problem Solving. Experimental results show that even state-of-the-art reasoning models (78.4% for Gemini-3.1-Pro and 69.3% for GPT-5) remain challenged, while embedding models struggle to retrieve equivalent problems. We further show that retrieval-augmented generation performance is highly sensitive to retrieval quality; for example, DeepSeek-V3.2-Speciale achieves gains of up to 12%, obtaining the highest scores on the benchmark. MathNet provides the largest high-quality Olympiad dataset together with the first benchmark for evaluating mathematical problem retrieval, and we publicly release both the dataset and benchmark at https://mathnet.mit.edu.