FrontierSmith: Синтез открытых задач по программированию в масштабе
FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale
May 14, 2026
Авторы: Runyuan He, Qiuyang Mang, Shang Zhou, Kaiyuan Liu, Hanchen Li, Huanzhi Mao, Qizheng Zhang, Zerui Li, Bo Peng, Lufeng Cheng, Tianfu Fu, Yichuan Wang, Wenhao Chai, Jingbo Shang, Alex Dimakis, Joseph E. Gonzalez, Alvin Cheung
cs.AI
Аннотация
Многие реальные задачи по программированию являются открытыми и не имеют известного оптимального решения. Однако последние достижения в области кодирования с помощью LLM были сосредоточены на хорошо определённых задачах, таких как реализация функциональности, исправление ошибок и соревновательное программирование. Открытое кодирование остаётся слабым местом для LLM, во многом из-за того, что тренировочные задачи открытого типа редки и дороги в создании. Наша цель — синтезировать открытые задачи по программированию в масштабе для обучения более сильных LLM-кодеров. Мы представляем FrontierSmith — автоматизированную систему для итеративной эволюции открытых задач из существующих замкнутых задач по программированию. Начиная с задач соревновательного программирования, FrontierSmith генерирует кандидатные открытые варианты, изменяя цели задач, ограничивая выходные данные и обобщая входные. Затем используется количественная метрика расхождения идей для отбора задач, которые вызывают действительно разнообразные подходы у разных решателей. Агенты создают тестовые примеры и верификаторы для выживших кандидатов. На двух бенчмарках открытого кодирования обучение на наших синтезированных данных даёт существенный прирост по сравнению с базовыми моделями: Qwen3.5-9B показывает улучшение на +8,82 балла на FrontierCS и +306,36 (производительность на основе рейтинга Эло) на ALE-bench; Qwen3.5-27B улучшается на +12,12 и +309,12 соответственно. Синтезированные задачи также заставляют агентов совершать больше шагов и использовать больше токенов, аналогично задачам, созданным людьми, что позволяет предположить, что замкнутые «затравки» могут быть практической отправной точкой для данных по долгосрочному программированию.
English
Many real-world coding challenges are open-ended and admit no known optimal solution. Yet, recent progress in LLM coding has focused on well-defined tasks such as feature implementation, bug fixing, and competitive programming. Open-ended coding remains a weak spot for LLMs, largely because open-ended training problems are scarce and expensive to construct. Our goal is to synthesize open-ended coding problems at scale to train stronger LLM coders. We introduce FrontierSmith, an automated system for iteratively evolving open-ended problems from existing closed-ended coding tasks. Starting from competitive programming problems, FrontierSmith generates candidate open-ended variants by changing the problems'goals, restricting outputs, and generalizing inputs. It then uses a quantitative idea divergence metric to select problems that elicit genuinely diverse approaches from different solvers. Agents then generate test cases and verifiers for the surviving candidates. On two open-ended coding benchmarks, training on our synthesized data yields substantial gains over the base models: Qwen3.5-9B improves by +8.82 score on FrontierCS and +306.36 (Elo-rating-based performance) on ALE-bench; Qwen3.5-27B improves by +12.12 and +309.12, respectively. The synthesized problems also make agents take more turns and use more tokens, similar to human-curated ones, suggesting that closed-ended seeds can be a practical starting point for long-horizon coding data.