FrontierSmith: Síntese de Problemas de Programação Abertos em Grande Escala

Resumo

Muitos desafios de codificação do mundo real são abertos e não admitem solução ótima conhecida. No entanto, o progresso recente na codificação com LLMs tem se concentrado em tarefas bem definidas, como implementação de funcionalidades, correção de bugs e programação competitiva. A codificação aberta continua sendo um ponto fraco para LLMs, em grande parte porque problemas abertos de treinamento são escassos e caros de construir. Nosso objetivo é sintetizar problemas abertos de codificação em escala para treinar codificadores LLM mais robustos. Apresentamos o FrontierSmith, um sistema automatizado para evoluir iterativamente problemas abertos a partir de tarefas de codificação fechadas existentes. Partindo de problemas de programação competitiva, o FrontierSmith gera variantes abertas candidatas alterando os objetivos dos problemas, restringindo saídas e generalizando entradas. Em seguida, utiliza uma métrica quantitativa de divergência de ideias para selecionar problemas que eliciam abordagens genuinamente diversas de diferentes solucionadores. Agentes então geram casos de teste e verificadores para os candidatos sobreviventes. Em dois benchmarks de codificação aberta, o treinamento com nossos dados sintéticos produz ganhos substanciais sobre os modelos base: o Qwen3.5-9B melhora em +8,82 pontos no FrontierCS e +306,36 (desempenho baseado em classificação Elo) no ALE-bench; o Qwen3.5-27B melhora em +12,12 e +309,12, respectivamente. Os problemas sintetizados também fazem com que os agentes realizem mais turnos e usem mais tokens, de forma similar aos problemas curados por humanos, sugerindo que sementes fechadas podem ser um ponto de partida prático para dados de codificação de horizonte longo.

English

Many real-world coding challenges are open-ended and admit no known optimal solution. Yet, recent progress in LLM coding has focused on well-defined tasks such as feature implementation, bug fixing, and competitive programming. Open-ended coding remains a weak spot for LLMs, largely because open-ended training problems are scarce and expensive to construct. Our goal is to synthesize open-ended coding problems at scale to train stronger LLM coders. We introduce FrontierSmith, an automated system for iteratively evolving open-ended problems from existing closed-ended coding tasks. Starting from competitive programming problems, FrontierSmith generates candidate open-ended variants by changing the problems'goals, restricting outputs, and generalizing inputs. It then uses a quantitative idea divergence metric to select problems that elicit genuinely diverse approaches from different solvers. Agents then generate test cases and verifiers for the surviving candidates. On two open-ended coding benchmarks, training on our synthesized data yields substantial gains over the base models: Qwen3.5-9B improves by +8.82 score on FrontierCS and +306.36 (Elo-rating-based performance) on ALE-bench; Qwen3.5-27B improves by +12.12 and +309.12, respectively. The synthesized problems also make agents take more turns and use more tokens, similar to human-curated ones, suggesting that closed-ended seeds can be a practical starting point for long-horizon coding data.