Kombinatorische Synthese: Skalierung von Code RLVR durch atomare Zerlegung und Rekombination

Zusammenfassung

Verstärkungslernen mit überprüfbaren Belohnungen (RLVR) hat sich in jüngster Zeit als Grundpfeiler für die Entwicklung der bemerkenswerten Codierfähigkeiten großer Sprachmodelle (Large Language Models, LLMs) etabliert. Die Skalierbarkeit von RLVR wird jedoch stark durch die Knappheit ausreichend anspruchsvoller, überprüfbarer Code-Aufgaben eingeschränkt, die nahe an der Leistungsgrenze des Modells liegen. Frühere Studien stützen sich oft auf heuristische Keimerweiterungen zur Datensynthese, was die Neuartigkeit und den Schwierigkeitsgrad erheblich einschränkt. Infolgedessen skaliert der Trainingswert solcher Daten nicht proportional zum Umfang ihrer Synthese. Zu diesem Zweck schlagen wir die Atomare Dekomposition und Rekombination (ADR) vor, ein neuartiges Framework, das überprüfbare Code-Aufgaben durch Zerlegung in atomare Elemente und kontrollierte Rekombination erzeugt und so die Generierung wirklich neuartiger und anspruchsvoller überprüfbarer Code-Aufgaben ermöglicht. Experimente und Analysen zeigen, dass ADR im Vergleich zu bestehenden Basislinien eine überlegene Originalität, Schwierigkeit, Diversität und Testqualität erreicht und durchgängig größere Verbesserungen der Code-Fähigkeiten bei RLVR in verschiedenen nachgelagerten Bereichen liefert, darunter algorithmische Programmierung, Werkzeugnutzung und Datenwissenschaft. Unsere Arbeit wirft Licht auf ein neues Paradigma für die Synthese neuartiger Code-Aufgaben und skalierbares RLVR-Training.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as the cornerstone for shaping the remarkable coding abilities of Large Language Models (LLMs). However, the scalability of RLVR is severely constrained by the scarcity of sufficiently challenging verifiable code tasks that target near the model's edge of competence. Prior studies often rely on heuristic seed expansions for data synthesis, which severely limits both novelty and difficulty. Consequently, the training value of such data fails to scale proportionally with the size of its synthesis. To this end, we propose Atomic Decomposition and Recombination (ADR), a novel framework that generates verifiable code tasks via decomposition into atomic elements and controlled recombination, thereby enabling the generation of genuinely novel and challenging verifiable code tasks. Experiments and analysis demonstrate that ADR achieves superior originality, difficulty, diversity, and test quality over existing baselines, and consistently delivers greater improvements in code ability across RLVR in diverse downstream domains, including algorithmic programming, tool usage, and data science. Our work sheds light on a new paradigm for novel code task synthesis and scalable RLVR training.