ResearchMath-14K : Mise à l’échelle des mathématiques de niveau recherche via des agents

Résumé

La frontière des mathématiques est définie par des problèmes dont les solutions ne sont pas encore connues, et il reste incertain que les modèles linguistiques puissent s'engager de manière significative sur de tels problèmes sans intervention humaine. Un obstacle majeur est l'absence d'ensembles de données mathématiques de niveau recherche à grande échelle. À cette fin, nous présentons ResearchMath-14k, un ensemble de 14 056 problèmes issus de sources académiques via un pipeline multi-agents, ce qui en fait la plus grande collection de problèmes mathématiques de niveau recherche à ce jour. Nous générons en outre ResearchMath-Reasoning, 220 000 trajectoires d'enseignants issues de deux modèles ouverts, où nous observons des comportements d'évitement récurrents tels que les non-tentatives et les références fabriquées. Fait intéressant, pour huit modèles à poids ouverts, les générations plus récentes produisent 5,6 fois plus de références et 5,0 fois plus de fausses références par trace. Après un filtrage agentique de ResearchMath-Reasoning, le fine-tuning des modèles Qwen3 de 4B à 30B paramètres améliore les modèles de base de 9,2 points en moyenne. Cela montre que les tentatives filtrées sur des problèmes ouverts peuvent fournir une supervision utile même sans traces de raisonnement entièrement correctes. Nous rendons ResearchMath-14k accessible au public pour les futurs travaux sur le raisonnement mathématique de niveau recherche.

English

The frontier of mathematics is defined by problems whose solutions are not yet known, yet it remains unclear whether language models can meaningfully engage with such problems without human intervention. A major obstacle is the lack of large-scale research-level math datasets. To this end, we introduce ResearchMath-14k, a set of 14{,}056 problems curated from academic sources via a multi-agent pipeline, making it the largest collection of research-level mathematical problems to date. We further generate ResearchMath-Reasoning, 220K teacher trajectories from two open models, where we observe recurring avoidance behaviors such as non-attempts and fabricated references. Interestingly, across eight open-weight models, newer generations produce 5.6times more references and 5.0times more fake references per trace. After agentic filtering of ResearchMath-Reasoning, fine-tuning Qwen3 models from 4B to 30B parameters improves over base models by 9.2 points on average. This shows that filtered open-problem attempts can provide useful supervision even without fully correct reasoning traces. We make ResearchMath-14k publicly available for future works on research-level mathematical reasoning.