FrontierSmith: Synthese offener Programmieraufgaben im großen Maßstab

Zusammenfassung

Viele reale Programmierherausforderungen sind offen formuliert und lassen keine bekannte optimale Lösung zu. Dennoch konzentrierte sich der jüngste Fortschritt bei LLM-basiertem Programmieren auf wohldefinierte Aufgaben wie Feature-Implementierung, Fehlerbehebung und Competitive Programming. Offenes Programmieren bleibt eine Schwachstelle von LLMs, vor allem weil offene Trainingsprobleme rar und teuer in der Erstellung sind. Unser Ziel ist es, offene Programmierprobleme in großem Umfang zu synthetisieren, um leistungsfähigere LLM-Coder zu trainieren. Wir stellen FrontierSmith vor, ein automatisiertes System zur iterativen Evolution offener Probleme aus bestehenden geschlossenen Programmieraufgaben. Ausgehend von Competitive-Programming-Problemen generiert FrontierSmith Kandidaten für offene Varianten, indem es die Problemziele ändert, Ausgaben einschränkt und Eingaben verallgemeinert. Anschließend wird eine quantitative Metrik zur Ideendivergenz verwendet, um Probleme auszuwählen, die bei verschiedenen Lösern wirklich unterschiedliche Ansätze hervorrufen. Agenten generieren dann Testfälle und Verifier für die überlebenden Kandidaten. Auf zwei Benchmarks für offenes Programmieren führen Trainings mit unseren synthetischen Daten zu erheblichen Verbesserungen gegenüber den Basismodellen: Qwen3.5-9B verbessert sich um +8,82 Punkte auf FrontierCS und um +306,36 (Elo-basierte Leistung) auf ALE-bench; Qwen3.5-27B verbessert sich um +12,12 bzw. +309,12. Die synthetisierten Probleme veranlassen die Agenten außerdem zu mehr Iterationen und Token-Nutzung, ähnlich wie von Menschen kuratierte Probleme, was darauf hindeutet, dass geschlossene Keimprobleme ein praktischer Ausgangspunkt für langfristige Programmierdaten sein können.

English

Many real-world coding challenges are open-ended and admit no known optimal solution. Yet, recent progress in LLM coding has focused on well-defined tasks such as feature implementation, bug fixing, and competitive programming. Open-ended coding remains a weak spot for LLMs, largely because open-ended training problems are scarce and expensive to construct. Our goal is to synthesize open-ended coding problems at scale to train stronger LLM coders. We introduce FrontierSmith, an automated system for iteratively evolving open-ended problems from existing closed-ended coding tasks. Starting from competitive programming problems, FrontierSmith generates candidate open-ended variants by changing the problems'goals, restricting outputs, and generalizing inputs. It then uses a quantitative idea divergence metric to select problems that elicit genuinely diverse approaches from different solvers. Agents then generate test cases and verifiers for the surviving candidates. On two open-ended coding benchmarks, training on our synthesized data yields substantial gains over the base models: Qwen3.5-9B improves by +8.82 score on FrontierCS and +306.36 (Elo-rating-based performance) on ALE-bench; Qwen3.5-27B improves by +12.12 and +309.12, respectively. The synthesized problems also make agents take more turns and use more tokens, similar to human-curated ones, suggesting that closed-ended seeds can be a practical starting point for long-horizon coding data.