Combinatorische Synthese: Opschalen van Code RLVR via Atomaire Decompositie en Recombinatie

Samenvatting

Versterkingsleren met Verifieerbare Beloningen (RLVR) is recentelijk uitgegroeid tot de hoeksteen voor het vormgeven van de opmerkelijke codeervaardigheden van Grote Taalmodellen (LLMs). De schaalbaarheid van RLVR wordt echter ernstig beperkt door de schaarste aan voldoende uitdagende verifieerbare codetaken die zich richten op de grens van het competentiegebied van het model. Eerdere studies vertrouwen vaak op heuristische zaaduitbreidingen voor datasynthese, wat zowel de nieuwigheid als de moeilijkheidsgraad ernstig beperkt. Bijgevolg schaalt de trainingswaarde van dergelijke data niet evenredig met de omvang van de synthese ervan. Daartoe stellen wij Atomaire Decompositie en Recombinatie (ADR) voor, een nieuw raamwerk dat verifieerbare codetaken genereert door decompositie in atomaire elementen en gecontroleerde recombinatie, waardoor het genereren van werkelijk nieuwe en uitdagende verifieerbare codetaken mogelijk wordt. Experimenten en analyses tonen aan dat ADR superieure originaliteit, moeilijkheidsgraad, diversiteit en testkwaliteit behaalt ten opzichte van bestaande baselines, en consequent grotere verbeteringen in codeervaardigheid oplevert via RLVR in diverse stroomafwaartse domeinen, waaronder algoritmisch programmeren, toolgebruik en datawetenschap. Ons werk werpt licht op een nieuw paradigma voor de synthese van nieuwe codetaken en schaalbare RLVR-training.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as the cornerstone for shaping the remarkable coding abilities of Large Language Models (LLMs). However, the scalability of RLVR is severely constrained by the scarcity of sufficiently challenging verifiable code tasks that target near the model's edge of competence. Prior studies often rely on heuristic seed expansions for data synthesis, which severely limits both novelty and difficulty. Consequently, the training value of such data fails to scale proportionally with the size of its synthesis. To this end, we propose Atomic Decomposition and Recombination (ADR), a novel framework that generates verifiable code tasks via decomposition into atomic elements and controlled recombination, thereby enabling the generation of genuinely novel and challenging verifiable code tasks. Experiments and analysis demonstrate that ADR achieves superior originality, difficulty, diversity, and test quality over existing baselines, and consistently delivers greater improvements in code ability across RLVR in diverse downstream domains, including algorithmic programming, tool usage, and data science. Our work sheds light on a new paradigm for novel code task synthesis and scalable RLVR training.