Code2Math: O Seu Agente de Código Pode Evoluir Problemas Matemáticos Efetivamente por Meio da Exploração?

Resumo

À medida que os modelos de linguagem de grande escala (LLMs) avançam suas capacidades matemáticas em direção ao nível da Olimpíada Internacional de Matemática (IMO), a escassez de problemas desafiadores e de alta qualidade para treinamento e avaliação tornou-se um gargalo significativo. Simultaneamente, agentes de código recentes demonstraram habilidades sofisticadas em codificação e raciocínio agentivo, sugerindo que a execução de código pode servir como um ambiente escalável para experimentação matemática. Neste artigo, investigamos o potencial de agentes de código para evoluir autonomamente problemas matemáticos existentes em variações mais complexas. Introduzimos uma estrutura multiagente projetada para realizar a evolução de problemas, validando a solucionabilidade e a maior dificuldade dos problemas gerados. Nossos experimentos demonstram que, dada uma exploração suficiente em tempo de teste, os agentes de código podem sintetizar novos problemas, solucionáveis e estruturalmente distintos dos originais, além de serem mais desafiadores. Este trabalho fornece evidências empíricas de que agentes baseados em código podem servir como um mecanismo viável para sintetizar problemas de raciocínio matemático de alta dificuldade dentro de ambientes computacionais escaláveis. Nossos dados estão disponíveis em https://github.com/TarferSoul/Code2Math.

English

As large language models (LLMs) advance their mathematical capabilities toward the IMO level, the scarcity of challenging, high-quality problems for training and evaluation has become a significant bottleneck. Simultaneously, recent code agents have demonstrated sophisticated skills in agentic coding and reasoning, suggesting that code execution can serve as a scalable environment for mathematical experimentation. In this paper, we investigate the potential of code agents to autonomously evolve existing math problems into more complex variations. We introduce a multi-agent framework designed to perform problem evolution while validating the solvability and increased difficulty of the generated problems. Our experiments demonstrate that, given sufficient test-time exploration, code agents can synthesize new, solvable problems that are structurally distinct from and more challenging than the originals. This work provides empirical evidence that code-driven agents can serve as a viable mechanism for synthesizing high-difficulty mathematical reasoning problems within scalable computational environments. Our data is available at https://github.com/TarferSoul/Code2Math.

Code2Math: O Seu Agente de Código Pode Evoluir Problemas Matemáticos Efetivamente por Meio da Exploração?

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Resumo

Support