FrontierSmith: Synthetiseren van open-einde codeerproblemen op schaal

Samenvatting

Veel praktische codeeruitdagingen in de echte wereld zijn open-eindig en kennen geen bekende optimale oplossing. Toch heeft de recente vooruitgang in LLM-codering zich gericht op duidelijk omschreven taken, zoals het implementeren van functies, het oplossen van bugs en competitief programmeren. Open-eindige codering blijft een zwak punt voor LLM's, grotendeels omdat open-eindige trainingsproblemen schaars en duur zijn om te construeren. Ons doel is om open-eindige codeerproblemen op schaal te synthetiseren om sterkere LLM-codeerders te trainen. We introduceren FrontierSmith, een geautomatiseerd systeem voor het iteratief evolueren van open-eindige problemen uit bestaande gesloten-eindige codeertaken. Beginnend met competitieve programmeerproblemen genereert FrontierSmith kandidaat open-eindige varianten door de doelen van de problemen te wijzigen, de output te beperken en de input te generaliseren. Het gebruikt vervolgens een kwantitatieve idee-divergentiemetriek om problemen te selecteren die werkelijk uiteenlopende benaderingen van verschillende oplossers ontlokken. Agenten genereren vervolgens testgevallen en verificateurs voor de overlevende kandidaten. Op twee open-eindige codeerbenchmarks levert training op onze gesynthetiseerde data aanzienlijke winsten op ten opzichte van de basismodellen: Qwen3.5-9B verbetert met +8,82 punten op FrontierCS en +306,36 (Elo-rating gebaseerde prestatie) op ALE-bench; Qwen3.5-27B verbetert met respectievelijk +12,12 en +309,12. De gesynthetiseerde problemen zorgen er ook voor dat agenten meer beurten nemen en meer tokens gebruiken, vergelijkbaar met door mensen samengestelde problemen, wat suggereert dat gesloten-eindige startpunten een praktisch uitgangspunt kunnen zijn voor codeergegevens met een lange horizon.

English

Many real-world coding challenges are open-ended and admit no known optimal solution. Yet, recent progress in LLM coding has focused on well-defined tasks such as feature implementation, bug fixing, and competitive programming. Open-ended coding remains a weak spot for LLMs, largely because open-ended training problems are scarce and expensive to construct. Our goal is to synthesize open-ended coding problems at scale to train stronger LLM coders. We introduce FrontierSmith, an automated system for iteratively evolving open-ended problems from existing closed-ended coding tasks. Starting from competitive programming problems, FrontierSmith generates candidate open-ended variants by changing the problems'goals, restricting outputs, and generalizing inputs. It then uses a quantitative idea divergence metric to select problems that elicit genuinely diverse approaches from different solvers. Agents then generate test cases and verifiers for the surviving candidates. On two open-ended coding benchmarks, training on our synthesized data yields substantial gains over the base models: Qwen3.5-9B improves by +8.82 score on FrontierCS and +306.36 (Elo-rating-based performance) on ALE-bench; Qwen3.5-27B improves by +12.12 and +309.12, respectively. The synthesized problems also make agents take more turns and use more tokens, similar to human-curated ones, suggesting that closed-ended seeds can be a practical starting point for long-horizon coding data.