ResearchMath-14K: Escalando Matemática de Nível de Pesquisa via Agentes

Resumo

A fronteira da matemática é definida por problemas cujas soluções ainda são desconhecidas, mas permanece incerto se modelos de linguagem podem se envolver significativamente com tais problemas sem intervenção humana. Um grande obstáculo é a falta de conjuntos de dados matemáticos de nível de pesquisa em larga escala. Para esse fim, apresentamos o ResearchMath-14k, um conjunto de 14.056 problemas selecionados de fontes acadêmicas por meio de um pipeline multiagente, tornando-o a maior coleção de problemas matemáticos de nível de pesquisa até o momento. Além disso, geramos o ResearchMath-Reasoning, 220 mil trajetórias de professor a partir de dois modelos abertos, onde observamos comportamentos recorrentes de evitação, como não tentativas e referências fabricadas. Curiosamente, em oito modelos de pesos abertos, as gerações mais recentes produzem 5,6 vezes mais referências e 5,0 vezes mais referências falsas por traço. Após a filtragem agêntica do ResearchMath-Reasoning, o ajuste fino dos modelos Qwen3 entre 4B e 30B de parâmetros melhora, em média, 9,2 pontos em relação aos modelos base. Isso mostra que tentativas filtradas de problemas abertos podem fornecer supervisão útil mesmo sem traços de raciocínio totalmente corretos. Disponibilizamos o ResearchMath-14k publicamente para trabalhos futuros sobre raciocínio matemático de nível de pesquisa.

English

The frontier of mathematics is defined by problems whose solutions are not yet known, yet it remains unclear whether language models can meaningfully engage with such problems without human intervention. A major obstacle is the lack of large-scale research-level math datasets. To this end, we introduce ResearchMath-14k, a set of 14{,}056 problems curated from academic sources via a multi-agent pipeline, making it the largest collection of research-level mathematical problems to date. We further generate ResearchMath-Reasoning, 220K teacher trajectories from two open models, where we observe recurring avoidance behaviors such as non-attempts and fabricated references. Interestingly, across eight open-weight models, newer generations produce 5.6times more references and 5.0times more fake references per trace. After agentic filtering of ResearchMath-Reasoning, fine-tuning Qwen3 models from 4B to 30B parameters improves over base models by 9.2 points on average. This shows that filtered open-problem attempts can provide useful supervision even without fully correct reasoning traces. We make ResearchMath-14k publicly available for future works on research-level mathematical reasoning.