Code2Math: ¿Puede tu agente de código evolucionar efectivamente problemas matemáticos mediante la exploración?

Resumen

A medida que los modelos de lenguaje grande (LLM) avanzan en sus capacidades matemáticas hacia el nivel de la Olimpiada Internacional de Matemáticas (IMO), la escasez de problemas desafiantes y de alta calidad para entrenamiento y evaluación se ha convertido en un cuello de botella significativo. Simultáneamente, los agentes de código recientes han demostrado habilidades sofisticadas en programación agentiva y razonamiento, lo que sugiere que la ejecución de código puede servir como un entorno escalable para la experimentación matemática. En este artículo, investigamos el potencial de los agentes de código para evolucionar autónomamente problemas matemáticos existentes hacia variaciones más complejas. Introducimos un marco multiagente diseñado para realizar la evolución de problemas mientras valida la resolubilidad y la mayor dificultad de los problemas generados. Nuestros experimentos demuestran que, dada una exploración suficiente en tiempo de prueba, los agentes de código pueden sintetizar nuevos problemas resolubles que son estructuralmente distintos y más desafiantes que los originales. Este trabajo proporciona evidencia empírica de que los agentes basados en código pueden servir como un mecanismo viable para sintetizar problemas de razonamiento matemático de alta dificultad dentro de entornos computacionales escalables. Nuestros datos están disponibles en https://github.com/TarferSoul/Code2Math.

English

As large language models (LLMs) advance their mathematical capabilities toward the IMO level, the scarcity of challenging, high-quality problems for training and evaluation has become a significant bottleneck. Simultaneously, recent code agents have demonstrated sophisticated skills in agentic coding and reasoning, suggesting that code execution can serve as a scalable environment for mathematical experimentation. In this paper, we investigate the potential of code agents to autonomously evolve existing math problems into more complex variations. We introduce a multi-agent framework designed to perform problem evolution while validating the solvability and increased difficulty of the generated problems. Our experiments demonstrate that, given sufficient test-time exploration, code agents can synthesize new, solvable problems that are structurally distinct from and more challenging than the originals. This work provides empirical evidence that code-driven agents can serve as a viable mechanism for synthesizing high-difficulty mathematical reasoning problems within scalable computational environments. Our data is available at https://github.com/TarferSoul/Code2Math.

Code2Math: ¿Puede tu agente de código evolucionar efectivamente problemas matemáticos mediante la exploración?

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Resumen

Support