Synthèse combinatoire : mise à l’échelle du code RLVR via la décomposition atomique et la recombinaison

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est récemment devenu la pierre angulaire pour façonner les remarquables capacités de codage des grands modèles de langage (LLMs). Cependant, l'évolutivité du RLVR est sévèrement contrainte par la rareté de tâches de code vérifiables suffisamment difficiles ciblant les limites de compétence du modèle. Les études antérieures reposent souvent sur des expansions heuristiques de semences pour la synthèse de données, ce qui limite fortement à la fois la nouveauté et la difficulté. Par conséquent, la valeur d'entraînement de ces données ne parvient pas à s'adapter proportionnellement à la taille de leur synthèse. À cette fin, nous proposons la Décomposition Atomique et le Recombinaison (ADR), un cadre novateur qui génère des tâches de code vérifiables via une décomposition en éléments atomiques et une recombinaison contrôlée, permettant ainsi la génération de tâches de code vérifiables véritablement nouvelles et difficiles. Les expériences et analyses démontrent que l'ADR atteint une originalité, une difficulté, une diversité et une qualité de test supérieures par rapport aux bases de référence existantes, et apporte de manière constante des améliorations plus importantes dans les capacités de codage à travers le RLVR dans divers domaines en aval, notamment la programmation algorithmique, l'utilisation d'outils et la science des données. Notre travail éclaire un nouveau paradigme pour la synthèse de tâches de code inédites et l'entraînement RLVR évolutif.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as the cornerstone for shaping the remarkable coding abilities of Large Language Models (LLMs). However, the scalability of RLVR is severely constrained by the scarcity of sufficiently challenging verifiable code tasks that target near the model's edge of competence. Prior studies often rely on heuristic seed expansions for data synthesis, which severely limits both novelty and difficulty. Consequently, the training value of such data fails to scale proportionally with the size of its synthesis. To this end, we propose Atomic Decomposition and Recombination (ADR), a novel framework that generates verifiable code tasks via decomposition into atomic elements and controlled recombination, thereby enabling the generation of genuinely novel and challenging verifiable code tasks. Experiments and analysis demonstrate that ADR achieves superior originality, difficulty, diversity, and test quality over existing baselines, and consistently delivers greater improvements in code ability across RLVR in diverse downstream domains, including algorithmic programming, tool usage, and data science. Our work sheds light on a new paradigm for novel code task synthesis and scalable RLVR training.