FrontierSmith : Générer des problèmes de codage ouverts à grande échelle

Résumé

De nombreux défis de codage concrets sont ouverts et n'admettent aucune solution optimale connue. Cependant, les progrès récents du codage par LLM se sont concentrés sur des tâches bien définies telles que l'implémentation de fonctionnalités, la correction de bugs et la programmation compétitive. Le codage ouvert reste un point faible des LLM, principalement parce que les problèmes d'entraînement ouverts sont rares et coûteux à construire. Notre objectif est de synthétiser des problèmes de codage ouverts à grande échelle pour former des codeurs LLM plus performants. Nous présentons FrontierSmith, un système automatisé pour faire évoluer de manière itérative des problèmes ouverts à partir de tâches de codage fermées existantes. À partir de problèmes de programmation compétitive, FrontierSmith génère des variantes ouvertes candidates en modifiant les objectifs des problèmes, en restreignant les sorties et en généralisant les entrées. Il utilise ensuite une métrique quantitative de divergence d'idées pour sélectionner les problèmes qui suscitent des approches véritablement diverses de la part de différents solveurs. Les agents génèrent ensuite des cas de test et des vérificateurs pour les candidats survivants. Sur deux benchmarks de codage ouvert, l'entraînement sur nos données synthétisées produit des gains substantiels par rapport aux modèles de base : Qwen3.5-9B s'améliore de +8,82 points sur FrontierCS et de +306,36 (performance basée sur le classement Elo) sur ALE-bench ; Qwen3.5-27B s'améliore respectivement de +12,12 et +309,12. Les problèmes synthétisés amènent également les agents à effectuer plus de tours et à utiliser plus de tokens, à l'instar de ceux élaborés par des humains, ce qui suggère que les amorces fermées peuvent constituer un point de départ pratique pour des données de codage à long terme.

English

Many real-world coding challenges are open-ended and admit no known optimal solution. Yet, recent progress in LLM coding has focused on well-defined tasks such as feature implementation, bug fixing, and competitive programming. Open-ended coding remains a weak spot for LLMs, largely because open-ended training problems are scarce and expensive to construct. Our goal is to synthesize open-ended coding problems at scale to train stronger LLM coders. We introduce FrontierSmith, an automated system for iteratively evolving open-ended problems from existing closed-ended coding tasks. Starting from competitive programming problems, FrontierSmith generates candidate open-ended variants by changing the problems'goals, restricting outputs, and generalizing inputs. It then uses a quantitative idea divergence metric to select problems that elicit genuinely diverse approaches from different solvers. Agents then generate test cases and verifiers for the surviving candidates. On two open-ended coding benchmarks, training on our synthesized data yields substantial gains over the base models: Qwen3.5-9B improves by +8.82 score on FrontierCS and +306.36 (Elo-rating-based performance) on ALE-bench; Qwen3.5-27B improves by +12.12 and +309.12, respectively. The synthesized problems also make agents take more turns and use more tokens, similar to human-curated ones, suggesting that closed-ended seeds can be a practical starting point for long-horizon coding data.