Code2Math: Может ли ваш код-агент эффективно развивать математические задачи через исследование?

Аннотация

По мере того как большие языковые модели (LLМ) приближают свои математические способности к уровню Международной математической олимпиады (ММО), дефицит сложных, качественных задач для обучения и оценки становится серьезным ограничением. В то же время современные код-агенты демонстрируют развитые навыки агентного программирования и рассуждений, что позволяет предположить, что выполнение кода может служить масштабируемой средой для математических экспериментов. В данной статье мы исследуем потенциал код-агентов для автономной эволюции существующих математических задач в более сложные вариации. Мы представляем многоагентную систему, предназначенную для выполнения эволюции задач с одновременной проверкой разрешимости и возросшей сложности генерируемых проблем. Наши эксперименты показывают, что при достаточном исследовании во время тестирования код-агенты способны синтезировать новые, разрешимые задачи, которые структурно отличаются от исходных и являются более сложными. Эта работа предоставляет эмпирические доказательства того, что код-ориентированные агенты могут служить жизнеспособным механизмом для синтеза задач на математические рассуждения высокой сложности в рамках масштабируемых вычислительных сред. Наши данные доступны по адресу https://github.com/TarferSoul/Code2Math.

English

As large language models (LLMs) advance their mathematical capabilities toward the IMO level, the scarcity of challenging, high-quality problems for training and evaluation has become a significant bottleneck. Simultaneously, recent code agents have demonstrated sophisticated skills in agentic coding and reasoning, suggesting that code execution can serve as a scalable environment for mathematical experimentation. In this paper, we investigate the potential of code agents to autonomously evolve existing math problems into more complex variations. We introduce a multi-agent framework designed to perform problem evolution while validating the solvability and increased difficulty of the generated problems. Our experiments demonstrate that, given sufficient test-time exploration, code agents can synthesize new, solvable problems that are structurally distinct from and more challenging than the originals. This work provides empirical evidence that code-driven agents can serve as a viable mechanism for synthesizing high-difficulty mathematical reasoning problems within scalable computational environments. Our data is available at https://github.com/TarferSoul/Code2Math.

Code2Math: Может ли ваш код-агент эффективно развивать математические задачи через исследование?

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Аннотация

Support