ResearchMath-14K: Skalierung von Mathematik auf Forschungsebene mittels Agenten

Zusammenfassung

Die Grenze der Mathematik wird durch Probleme definiert, deren Lösungen noch nicht bekannt sind, doch bleibt unklar, ob Sprachmodelle ohne menschliches Eingreifen sinnvoll mit solchen Problemen umgehen können. Ein wesentliches Hindernis ist das Fehlen großer mathematischer Datensätze auf Forschungsebene. Zu diesem Zweck stellen wir ResearchMath-14k vor, eine Sammlung von 14.056 Problemen, die über eine Multi-Agenten-Pipeline aus akademischen Quellen zusammengestellt wurden – der größten Sammlung mathematischer Probleme auf Forschungsebene, die es derzeit gibt. Wir generieren ferner ResearchMath-Reasoning mit 220.000 Lehrertrajektorien aus zwei Open-Weight-Modellen, wobei wir wiederkehrendes Vermeidungsverhalten wie Nicht-Versuche und erfundene Referenzen beobachten. Interessanterweise erzeugen neuere Generationen bei acht Open-Weight-Modellen 5,6-mal mehr Referenzen und 5,0-mal mehr gefälschte Referenzen pro Trajektorie. Nach agentischem Filtern von ResearchMath-Reasoning verbessern sich Qwen3-Modelle mit 4B bis 30B Parametern im Durchschnitt um 9,2 Punkte gegenüber den Basismodellen. Dies zeigt, dass gefilterte Versuche zu offenen Problemen auch ohne vollständig korrekte Reasoning-Spuren nützliche Überwachung liefern können. Wir machen ResearchMath-14k für zukünftige Arbeiten zum mathematischen Denken auf Forschungsebene öffentlich zugänglich.

English

The frontier of mathematics is defined by problems whose solutions are not yet known, yet it remains unclear whether language models can meaningfully engage with such problems without human intervention. A major obstacle is the lack of large-scale research-level math datasets. To this end, we introduce ResearchMath-14k, a set of 14{,}056 problems curated from academic sources via a multi-agent pipeline, making it the largest collection of research-level mathematical problems to date. We further generate ResearchMath-Reasoning, 220K teacher trajectories from two open models, where we observe recurring avoidance behaviors such as non-attempts and fabricated references. Interestingly, across eight open-weight models, newer generations produce 5.6times more references and 5.0times more fake references per trace. After agentic filtering of ResearchMath-Reasoning, fine-tuning Qwen3 models from 4B to 30B parameters improves over base models by 9.2 points on average. This shows that filtered open-problem attempts can provide useful supervision even without fully correct reasoning traces. We make ResearchMath-14k publicly available for future works on research-level mathematical reasoning.