Síntese Combinatória: Escalonamento do Code RLVR via Decomposição e Recombinação Atômica

Resumo

Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu recentemente como o alicerce para moldar as notáveis capacidades de codificação dos Modelos de Linguagem de Grande Escala (LLMs). No entanto, a escalabilidade do RLVR é severamente limitada pela escassez de tarefas de código verificáveis suficientemente desafiadoras que estejam próximas do limite de competência do modelo. Estudos anteriores frequentemente dependem de expansões heurísticas de sementes para síntese de dados, o que restringe severamente tanto a novidade quanto a dificuldade. Consequentemente, o valor de treinamento desses dados não escala proporcionalmente ao tamanho de sua síntese. Para este fim, propomos a Decomposição e Recombinação Atômica (ADR), uma nova estrutura que gera tarefas de código verificáveis por meio da decomposição em elementos atômicos e recombinação controlada, permitindo assim a geração de tarefas de código verificáveis genuinamente novas e desafiadoras. Experimentos e análises demonstram que a ADR alcança originalidade, dificuldade, diversidade e qualidade de teste superiores às linhas de base existentes, e consistentemente proporciona maiores melhorias na habilidade de código em diferentes domínios downstream do RLVR, incluindo programação algorítmica, uso de ferramentas e ciência de dados. Nosso trabalho lança luz sobre um novo paradigma para a síntese de tarefas de código inovadoras e treinamento escalável de RLVR.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as the cornerstone for shaping the remarkable coding abilities of Large Language Models (LLMs). However, the scalability of RLVR is severely constrained by the scarcity of sufficiently challenging verifiable code tasks that target near the model's edge of competence. Prior studies often rely on heuristic seed expansions for data synthesis, which severely limits both novelty and difficulty. Consequently, the training value of such data fails to scale proportionally with the size of its synthesis. To this end, we propose Atomic Decomposition and Recombination (ADR), a novel framework that generates verifiable code tasks via decomposition into atomic elements and controlled recombination, thereby enabling the generation of genuinely novel and challenging verifiable code tasks. Experiments and analysis demonstrate that ADR achieves superior originality, difficulty, diversity, and test quality over existing baselines, and consistently delivers greater improvements in code ability across RLVR in diverse downstream domains, including algorithmic programming, tool usage, and data science. Our work sheds light on a new paradigm for novel code task synthesis and scalable RLVR training.