Síntesis Combinatoria: Escalado de Código RLVR mediante Descomposición Atómica y Recombinación

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha surgido recientemente como la piedra angular para moldear las notables capacidades de codificación de los Modelos de Lenguaje Grandes (LLM). Sin embargo, la escalabilidad del RLVR está severamente limitada por la escasez de tareas de código verificables suficientemente desafiantes que apunten cerca del borde de competencia del modelo. Estudios previos a menudo dependen de expansiones heurísticas de semillas para la síntesis de datos, lo que limita gravemente tanto la novedad como la dificultad. En consecuencia, el valor de entrenamiento de dichos datos no escala proporcionalmente con el tamaño de su síntesis. Para abordar esto, proponemos Descomposición Atómica y Recombinación (ADR), un marco novedoso que genera tareas de código verificables mediante la descomposición en elementos atómicos y la recombinación controlada, permitiendo así la generación de tareas de código verificables genuinamente novedosas y desafiantes. Experimentos y análisis demuestran que ADR logra una originalidad, dificultad, diversidad y calidad de prueba superiores en comparación con las líneas base existentes, y proporciona consistentemente mayores mejoras en la habilidad de código a través de RLVR en diversos dominios downstream, incluyendo programación algorítmica, uso de herramientas y ciencia de datos. Nuestro trabajo arroja luz sobre un nuevo paradigma para la síntesis de tareas de código novedosas y el entrenamiento escalable con RLVR.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as the cornerstone for shaping the remarkable coding abilities of Large Language Models (LLMs). However, the scalability of RLVR is severely constrained by the scarcity of sufficiently challenging verifiable code tasks that target near the model's edge of competence. Prior studies often rely on heuristic seed expansions for data synthesis, which severely limits both novelty and difficulty. Consequently, the training value of such data fails to scale proportionally with the size of its synthesis. To this end, we propose Atomic Decomposition and Recombination (ADR), a novel framework that generates verifiable code tasks via decomposition into atomic elements and controlled recombination, thereby enabling the generation of genuinely novel and challenging verifiable code tasks. Experiments and analysis demonstrate that ADR achieves superior originality, difficulty, diversity, and test quality over existing baselines, and consistently delivers greater improvements in code ability across RLVR in diverse downstream domains, including algorithmic programming, tool usage, and data science. Our work sheds light on a new paradigm for novel code task synthesis and scalable RLVR training.