ChatPaper.aiChatPaper

Code2Math: 코드 에이전트가 탐색을 통해 수학 문제를 효과적으로 진화시킬 수 있을까?

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

March 3, 2026
저자: Dadi Guo, Yuejin Xie, Qingyu Liu, Jiayu Liu, Zhiyuan Fan, Qihan Ren, Shuai Shao, Tianyi Zhou, Dongrui Liu, Yi R. Fung
cs.AI

초록

대규모 언어 모델(LLM)의 수학적 능력이 국제수학올림피아드(IMO) 수준으로 발전함에 따라, 훈련 및 평가를 위한 도전적이고 고품질의 문제 부족이 심각한 병목 현상으로 대두되고 있습니다. 동시에, 최근의 코드 에이전트는 에이전트 기반 코딩 및 추론에서 정교한 능력을 보여주며, 코드 실행이 수학적 실험을 위한 확장 가능한 환경으로 기능할 수 있음을 시사합니다. 본 논문에서는 코드 에이전트가 기존 수학 문제를 더 복잡한 변형으로 자율적으로 진화시킬 수 있는 잠재력을 조사합니다. 우리는 문제 진화를 수행하면서 생성된 문제의 해결 가능성과 증가된 난이도를 검증하도록 설계된 다중 에이전트 프레임워크를 소개합니다. 우리의 실험은 충분한 테스트 시간 탐색이 주어지면 코드 에이전트가 원본 문제와 구조적으로 구별되며 더 도전적인, 새로운 해결 가능한 문제를 합성할 수 있음을 입증합니다. 이 연구는 코드 기반 에이전트가 확장 가능한 계산 환경 내에서 고난이도 수학적 추론 문제를 합성하는 실행 가능한 메커니즘으로 기능할 수 있다는 경험적 증거를 제시합니다. 우리의 데이터는 https://github.com/TarferSoul/Code2Math에서 확인할 수 있습니다.
English
As large language models (LLMs) advance their mathematical capabilities toward the IMO level, the scarcity of challenging, high-quality problems for training and evaluation has become a significant bottleneck. Simultaneously, recent code agents have demonstrated sophisticated skills in agentic coding and reasoning, suggesting that code execution can serve as a scalable environment for mathematical experimentation. In this paper, we investigate the potential of code agents to autonomously evolve existing math problems into more complex variations. We introduce a multi-agent framework designed to perform problem evolution while validating the solvability and increased difficulty of the generated problems. Our experiments demonstrate that, given sufficient test-time exploration, code agents can synthesize new, solvable problems that are structurally distinct from and more challenging than the originals. This work provides empirical evidence that code-driven agents can serve as a viable mechanism for synthesizing high-difficulty mathematical reasoning problems within scalable computational environments. Our data is available at https://github.com/TarferSoul/Code2Math.
PDF172May 8, 2026