Code2Math: Kann Ihr Code-Agent Mathematikprobleme durch Exploration effektiv weiterentwickeln?

Zusammenfassung

Mit der Weiterentwicklung der mathematischen Fähigkeiten großer Sprachmodelle (LLMs) auf das Niveau der Internationalen Mathematik-Olympiade (IMO) ist die Knappheit an anspruchsvollen, hochwertigen Problemen für Training und Evaluation zu einem erheblichen Engpass geworden. Gleichzeitig haben neuere Code-Agenten anspruchsvolle Fähigkeiten im agentenbasierten Programmieren und logischen Schließen demonstriert, was darauf hindeutet, dass Code-Ausführung als skalierbare Umgebung für mathematische Experimente dienen kann. In dieser Arbeit untersuchen wir das Potenzial von Code-Agenten, bestehende mathematische Probleme autonom zu komplexeren Variationen weiterzuentwickeln. Wir stellen ein Multi-Agenten-Framework vor, das entwickelt wurde, um Problemevolution durchzuführen und dabei die Lösbarkeit sowie den erhöhten Schwierigkeitsgrad der generierten Probleme zu validieren. Unsere Experimente zeigen, dass Code-Agenten bei ausreichender Exploration zur Testzeit neue, lösbare Probleme synthetisieren können, die sich strukturell von den Originalen unterscheiden und anspruchsvoller sind. Diese Arbeit liefert empirische Belege dafür, dass codegesteuerte Agenten als praktikabler Mechanismus zur Synthese von mathematischen Denkproblemen mit hohem Schwierigkeitsgrad in skalierbaren Rechenumgebungen dienen können. Unsere Daten sind unter https://github.com/TarferSoul/Code2Math verfügbar.

English

As large language models (LLMs) advance their mathematical capabilities toward the IMO level, the scarcity of challenging, high-quality problems for training and evaluation has become a significant bottleneck. Simultaneously, recent code agents have demonstrated sophisticated skills in agentic coding and reasoning, suggesting that code execution can serve as a scalable environment for mathematical experimentation. In this paper, we investigate the potential of code agents to autonomously evolve existing math problems into more complex variations. We introduce a multi-agent framework designed to perform problem evolution while validating the solvability and increased difficulty of the generated problems. Our experiments demonstrate that, given sufficient test-time exploration, code agents can synthesize new, solvable problems that are structurally distinct from and more challenging than the originals. This work provides empirical evidence that code-driven agents can serve as a viable mechanism for synthesizing high-difficulty mathematical reasoning problems within scalable computational environments. Our data is available at https://github.com/TarferSoul/Code2Math.

Code2Math: Kann Ihr Code-Agent Mathematikprobleme durch Exploration effektiv weiterentwickeln?

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Zusammenfassung

Support