FrontierSmith: Синтез открытых задач по программированию в масштабе

Аннотация

Многие реальные задачи по программированию являются открытыми и не имеют известного оптимального решения. Однако последние достижения в области кодирования с помощью LLM были сосредоточены на хорошо определённых задачах, таких как реализация функциональности, исправление ошибок и соревновательное программирование. Открытое кодирование остаётся слабым местом для LLM, во многом из-за того, что тренировочные задачи открытого типа редки и дороги в создании. Наша цель — синтезировать открытые задачи по программированию в масштабе для обучения более сильных LLM-кодеров. Мы представляем FrontierSmith — автоматизированную систему для итеративной эволюции открытых задач из существующих замкнутых задач по программированию. Начиная с задач соревновательного программирования, FrontierSmith генерирует кандидатные открытые варианты, изменяя цели задач, ограничивая выходные данные и обобщая входные. Затем используется количественная метрика расхождения идей для отбора задач, которые вызывают действительно разнообразные подходы у разных решателей. Агенты создают тестовые примеры и верификаторы для выживших кандидатов. На двух бенчмарках открытого кодирования обучение на наших синтезированных данных даёт существенный прирост по сравнению с базовыми моделями: Qwen3.5-9B показывает улучшение на +8,82 балла на FrontierCS и +306,36 (производительность на основе рейтинга Эло) на ALE-bench; Qwen3.5-27B улучшается на +12,12 и +309,12 соответственно. Синтезированные задачи также заставляют агентов совершать больше шагов и использовать больше токенов, аналогично задачам, созданным людьми, что позволяет предположить, что замкнутые «затравки» могут быть практической отправной точкой для данных по долгосрочному программированию.

English

Many real-world coding challenges are open-ended and admit no known optimal solution. Yet, recent progress in LLM coding has focused on well-defined tasks such as feature implementation, bug fixing, and competitive programming. Open-ended coding remains a weak spot for LLMs, largely because open-ended training problems are scarce and expensive to construct. Our goal is to synthesize open-ended coding problems at scale to train stronger LLM coders. We introduce FrontierSmith, an automated system for iteratively evolving open-ended problems from existing closed-ended coding tasks. Starting from competitive programming problems, FrontierSmith generates candidate open-ended variants by changing the problems'goals, restricting outputs, and generalizing inputs. It then uses a quantitative idea divergence metric to select problems that elicit genuinely diverse approaches from different solvers. Agents then generate test cases and verifiers for the surviving candidates. On two open-ended coding benchmarks, training on our synthesized data yields substantial gains over the base models: Qwen3.5-9B improves by +8.82 score on FrontierCS and +306.36 (Elo-rating-based performance) on ALE-bench; Qwen3.5-27B improves by +12.12 and +309.12, respectively. The synthesized problems also make agents take more turns and use more tokens, similar to human-curated ones, suggesting that closed-ended seeds can be a practical starting point for long-horizon coding data.