ChatPaper.aiChatPaper

FrontierSmith: Synthetiseren van open-einde codeerproblemen op schaal

FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale

May 14, 2026
Auteurs: Runyuan He, Qiuyang Mang, Shang Zhou, Kaiyuan Liu, Hanchen Li, Huanzhi Mao, Qizheng Zhang, Zerui Li, Bo Peng, Lufeng Cheng, Tianfu Fu, Yichuan Wang, Wenhao Chai, Jingbo Shang, Alex Dimakis, Joseph E. Gonzalez, Alvin Cheung
cs.AI

Samenvatting

Veel praktische codeeruitdagingen in de echte wereld zijn open-eindig en kennen geen bekende optimale oplossing. Toch heeft de recente vooruitgang in LLM-codering zich gericht op duidelijk omschreven taken, zoals het implementeren van functies, het oplossen van bugs en competitief programmeren. Open-eindige codering blijft een zwak punt voor LLM's, grotendeels omdat open-eindige trainingsproblemen schaars en duur zijn om te construeren. Ons doel is om open-eindige codeerproblemen op schaal te synthetiseren om sterkere LLM-codeerders te trainen. We introduceren FrontierSmith, een geautomatiseerd systeem voor het iteratief evolueren van open-eindige problemen uit bestaande gesloten-eindige codeertaken. Beginnend met competitieve programmeerproblemen genereert FrontierSmith kandidaat open-eindige varianten door de doelen van de problemen te wijzigen, de output te beperken en de input te generaliseren. Het gebruikt vervolgens een kwantitatieve idee-divergentiemetriek om problemen te selecteren die werkelijk uiteenlopende benaderingen van verschillende oplossers ontlokken. Agenten genereren vervolgens testgevallen en verificateurs voor de overlevende kandidaten. Op twee open-eindige codeerbenchmarks levert training op onze gesynthetiseerde data aanzienlijke winsten op ten opzichte van de basismodellen: Qwen3.5-9B verbetert met +8,82 punten op FrontierCS en +306,36 (Elo-rating gebaseerde prestatie) op ALE-bench; Qwen3.5-27B verbetert met respectievelijk +12,12 en +309,12. De gesynthetiseerde problemen zorgen er ook voor dat agenten meer beurten nemen en meer tokens gebruiken, vergelijkbaar met door mensen samengestelde problemen, wat suggereert dat gesloten-eindige startpunten een praktisch uitgangspunt kunnen zijn voor codeergegevens met een lange horizon.
English
Many real-world coding challenges are open-ended and admit no known optimal solution. Yet, recent progress in LLM coding has focused on well-defined tasks such as feature implementation, bug fixing, and competitive programming. Open-ended coding remains a weak spot for LLMs, largely because open-ended training problems are scarce and expensive to construct. Our goal is to synthesize open-ended coding problems at scale to train stronger LLM coders. We introduce FrontierSmith, an automated system for iteratively evolving open-ended problems from existing closed-ended coding tasks. Starting from competitive programming problems, FrontierSmith generates candidate open-ended variants by changing the problems'goals, restricting outputs, and generalizing inputs. It then uses a quantitative idea divergence metric to select problems that elicit genuinely diverse approaches from different solvers. Agents then generate test cases and verifiers for the surviving candidates. On two open-ended coding benchmarks, training on our synthesized data yields substantial gains over the base models: Qwen3.5-9B improves by +8.82 score on FrontierCS and +306.36 (Elo-rating-based performance) on ALE-bench; Qwen3.5-27B improves by +12.12 and +309.12, respectively. The synthesized problems also make agents take more turns and use more tokens, similar to human-curated ones, suggesting that closed-ended seeds can be a practical starting point for long-horizon coding data.