FrontierSmith: Síntesis de Problemas de Codificación Abiertos a Escala

Resumen

Muchos desafíos de codificación del mundo real son de carácter abierto y no admiten una solución óptima conocida. Sin embargo, los avances recientes en la codificación con LLM se han centrado en tareas bien definidas como la implementación de características, la corrección de errores y la programación competitiva. La codificación abierta sigue siendo un punto débil para los LLM, en gran medida porque los problemas abiertos de entrenamiento son escasos y costosos de construir. Nuestro objetivo es sintetizar problemas de codificación abiertos a gran escala para entrenar codificadores LLM más robustos. Presentamos FrontierSmith, un sistema automatizado que evoluciona iterativamente problemas abiertos a partir de tareas cerradas de codificación existentes. Partiendo de problemas de programación competitiva, FrontierSmith genera variantes abiertas candidatas modificando los objetivos de los problemas, restringiendo las salidas y generalizando las entradas. Luego utiliza una métrica cuantitativa de divergencia de ideas para seleccionar problemas que induzcan enfoques genuinamente diversos por parte de diferentes solucionadores. Los agentes generan entonces casos de prueba y verificadores para los candidatos supervivientes. En dos puntos de referencia de codificación abierta, el entrenamiento con nuestros datos sintéticos produce mejoras sustanciales con respecto a los modelos base: Qwen3.5-9B mejora en +8.82 puntos en FrontierCS y +306.36 (rendimiento basado en puntuación Elo) en ALE-bench; Qwen3.5-27B mejora en +12.12 y +309.12, respectivamente. Los problemas sintetizados también hacen que los agentes tomen más turnos y usen más tokens, de manera similar a los problemas curados por humanos, lo que sugiere que las semillas cerradas pueden ser un punto de partida práctico para datos de codificación de horizonte largo.

English

Many real-world coding challenges are open-ended and admit no known optimal solution. Yet, recent progress in LLM coding has focused on well-defined tasks such as feature implementation, bug fixing, and competitive programming. Open-ended coding remains a weak spot for LLMs, largely because open-ended training problems are scarce and expensive to construct. Our goal is to synthesize open-ended coding problems at scale to train stronger LLM coders. We introduce FrontierSmith, an automated system for iteratively evolving open-ended problems from existing closed-ended coding tasks. Starting from competitive programming problems, FrontierSmith generates candidate open-ended variants by changing the problems'goals, restricting outputs, and generalizing inputs. It then uses a quantitative idea divergence metric to select problems that elicit genuinely diverse approaches from different solvers. Agents then generate test cases and verifiers for the surviving candidates. On two open-ended coding benchmarks, training on our synthesized data yields substantial gains over the base models: Qwen3.5-9B improves by +8.82 score on FrontierCS and +306.36 (Elo-rating-based performance) on ALE-bench; Qwen3.5-27B improves by +12.12 and +309.12, respectively. The synthesized problems also make agents take more turns and use more tokens, similar to human-curated ones, suggesting that closed-ended seeds can be a practical starting point for long-horizon coding data.