ResearchMath-14K: Escalando Matemáticas a Nivel de Investigación mediante Agentes

Resumen

La frontera de las matemáticas está definida por problemas cuyas soluciones aún se desconocen, y no está claro si los modelos de lenguaje pueden abordar significativamente dichos problemas sin intervención humana. Un obstáculo importante es la falta de conjuntos de datos matemáticos a nivel de investigación a gran escala. Con este fin, presentamos ResearchMath-14k, un conjunto de 14 056 problemas extraídos de fuentes académicas mediante un pipeline multiagente, lo que lo convierte en la mayor colección de problemas matemáticos a nivel de investigación hasta la fecha. Además, generamos ResearchMath-Reasoning, que contiene 220 000 trayectorias de profesor a partir de dos modelos abiertos, donde observamos comportamientos recurrentes de evitación, como no-intentos y referencias fabricadas. Es interesante notar que, en ocho modelos de pesos abiertos, las generaciones más recientes producen 5,6 veces más referencias y 5,0 veces más referencias falsas por traza. Tras el filtrado agéntico de ResearchMath-Reasoning, el ajuste fino de los modelos Qwen3, desde 4B hasta 30B parámetros, mejora en promedio 9,2 puntos respecto a los modelos base. Esto demuestra que los intentos filtrados de problemas abiertos pueden proporcionar supervisión útil incluso sin trayectorias de razonamiento completamente correctas. Ponemos ResearchMath-14k a disposición del público para futuros trabajos sobre razonamiento matemático a nivel de investigación.

English

The frontier of mathematics is defined by problems whose solutions are not yet known, yet it remains unclear whether language models can meaningfully engage with such problems without human intervention. A major obstacle is the lack of large-scale research-level math datasets. To this end, we introduce ResearchMath-14k, a set of 14{,}056 problems curated from academic sources via a multi-agent pipeline, making it the largest collection of research-level mathematical problems to date. We further generate ResearchMath-Reasoning, 220K teacher trajectories from two open models, where we observe recurring avoidance behaviors such as non-attempts and fabricated references. Interestingly, across eight open-weight models, newer generations produce 5.6times more references and 5.0times more fake references per trace. After agentic filtering of ResearchMath-Reasoning, fine-tuning Qwen3 models from 4B to 30B parameters improves over base models by 9.2 points on average. This shows that filtered open-problem attempts can provide useful supervision even without fully correct reasoning traces. We make ResearchMath-14k publicly available for future works on research-level mathematical reasoning.