ResearchMath-14K: Масштабирование исследовательской математики с помощью агентов

Аннотация

Передний край математики определяется задачами, решения которых пока неизвестны, однако остается неясным, могут ли языковые модели осмысленно работать с такими задачами без вмешательства человека. Основным препятствием является отсутствие крупномасштабных наборов математических данных исследовательского уровня. Для решения этой проблемы мы представляем ResearchMath-14k — набор из 14 056 задач, собранных из академических источников с помощью многогаентного конвейера, что делает его крупнейшей коллекцией математических задач исследовательского уровня на сегодняшний день. Кроме того, мы создали ResearchMath-Reasoning — 220 тысяч траекторий учителя, полученных от двух открытых моделей, где мы наблюдали повторяющееся избегающее поведение, такое как попытки невыполнения и вымышленные ссылки. Интересно, что среди восьми моделей с открытым весом новые поколения производят в 5,6 раза больше ссылок и в 5,0 раза больше ложных ссылок на трассу. После агентной фильтрации ResearchMath-Reasoning тонкая настройка моделей Qwen3 от 4B до 30B параметров улучшает базовые модели в среднем на 9,2 балла. Это показывает, что отфильтрованные попытки решения открытых задач могут обеспечить полезный контроль даже при отсутствии полностью корректных цепочек рассуждений. Мы делаем ResearchMath-14k общедоступным для будущих работ по математическим рассуждениям исследовательского уровня.

English

The frontier of mathematics is defined by problems whose solutions are not yet known, yet it remains unclear whether language models can meaningfully engage with such problems without human intervention. A major obstacle is the lack of large-scale research-level math datasets. To this end, we introduce ResearchMath-14k, a set of 14{,}056 problems curated from academic sources via a multi-agent pipeline, making it the largest collection of research-level mathematical problems to date. We further generate ResearchMath-Reasoning, 220K teacher trajectories from two open models, where we observe recurring avoidance behaviors such as non-attempts and fabricated references. Interestingly, across eight open-weight models, newer generations produce 5.6times more references and 5.0times more fake references per trace. After agentic filtering of ResearchMath-Reasoning, fine-tuning Qwen3 models from 4B to 30B parameters improves over base models by 9.2 points on average. This shows that filtered open-problem attempts can provide useful supervision even without fully correct reasoning traces. We make ResearchMath-14k publicly available for future works on research-level mathematical reasoning.