ResearchMath-14K: Opschalen van onderzoekswiskunde via agenten

Samenvatting

De grens van de wiskunde wordt bepaald door problemen waarvan de oplossingen nog niet bekend zijn, maar het blijft onduidelijk of taalmodellen zonder menselijke tussenkomst zinvol met dergelijke problemen kunnen omgaan. Een groot obstakel is het gebrek aan grootschalige wiskundige datasets op onderzoeksniveau. Hiertoe introduceren we ResearchMath-14k, een set van 14.056 problemen die via een multi-agent-pijplijn uit academische bronnen zijn samengesteld, waarmee het de grootste verzameling wiskundige problemen op onderzoeksniveau tot nu toe is. Verder genereren we ResearchMath-Reasoning, 220K docenttrajecten van twee open modellen, waarbij we terugkerende vermijdingsgedragingen waarnemen, zoals niet-pogingen en verzonnen referenties. Interessant is dat bij acht open-gewichtsmodellen nieuwere generaties 5,6 keer meer referenties en 5,0 keer meer valse referenties per trace produceren. Na agentische filtering van ResearchMath-Reasoning verbetert het finetunen van Qwen3-modellen van 4B tot 30B parameters gemiddeld met 9,2 punten ten opzichte van de basismodellen. Dit laat zien dat gefilterde pogingen bij open problemen nuttige supervisie kunnen bieden, zelfs zonder volledig correcte redeneertraces. We maken ResearchMath-14k openbaar beschikbaar voor toekomstig werk aan wiskundig redeneren op onderzoeksniveau.

English

The frontier of mathematics is defined by problems whose solutions are not yet known, yet it remains unclear whether language models can meaningfully engage with such problems without human intervention. A major obstacle is the lack of large-scale research-level math datasets. To this end, we introduce ResearchMath-14k, a set of 14{,}056 problems curated from academic sources via a multi-agent pipeline, making it the largest collection of research-level mathematical problems to date. We further generate ResearchMath-Reasoning, 220K teacher trajectories from two open models, where we observe recurring avoidance behaviors such as non-attempts and fabricated references. Interestingly, across eight open-weight models, newer generations produce 5.6times more references and 5.0times more fake references per trace. After agentic filtering of ResearchMath-Reasoning, fine-tuning Qwen3 models from 4B to 30B parameters improves over base models by 9.2 points on average. This shows that filtered open-problem attempts can provide useful supervision even without fully correct reasoning traces. We make ResearchMath-14k publicly available for future works on research-level mathematical reasoning.