ChatPaper.aiChatPaper

組み合わせ合成: 原子的分解と再結合によるコードRLVRのスケーリング

Combinatorial Synthesis: Scaling Code RLVR via Atomic Decomposition and Recombination

May 29, 2026
著者: Jiasheng Zheng, Boxi Cao, Boxi Yu, Yuzhong Zhang, Jialun Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun
cs.AI

要旨

検証可能な報酬を用いた強化学習(RLVR)は、大規模言語モデル(LLMs)の優れたコーディング能力を形成するための基盤として近年浮上している。しかし、RLVRのスケーラビリティは、モデルの能力限界近くを対象とした十分に挑戦的な検証可能なコードタスクが不足していることにより、深刻に制約されている。先行研究では、データ合成のためにヒューリスティックなシード拡張に依存することが多く、これにより新規性と難易度が著しく制限される。その結果、そのようなデータの訓練価値は、合成規模に比例して拡大しない。この問題に対処するため、我々は原子分解と再結合(ADR)という新しいフレームワークを提案する。これは、コードタスクを原子要素に分解し、制御された再結合を介して検証可能なコードタスクを生成することで、真に新規で挑戦的な検証可能なコードタスクの生成を可能にする。実験と分析により、ADRは既存のベースラインと比較して優れた独創性、難易度、多様性、テスト品質を達成し、アルゴリズムプログラミング、ツール使用、データサイエンスを含む多様な下流ドメインにおいて、RLVR全体でコード能力の一貫した大きな改善をもたらすことが示された。本研究は、新しいコードタスク合成とスケーラブルなRLVR訓練のための新たなパラダイムに光を当てるものである。
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as the cornerstone for shaping the remarkable coding abilities of Large Language Models (LLMs). However, the scalability of RLVR is severely constrained by the scarcity of sufficiently challenging verifiable code tasks that target near the model's edge of competence. Prior studies often rely on heuristic seed expansions for data synthesis, which severely limits both novelty and difficulty. Consequently, the training value of such data fails to scale proportionally with the size of its synthesis. To this end, we propose Atomic Decomposition and Recombination (ADR), a novel framework that generates verifiable code tasks via decomposition into atomic elements and controlled recombination, thereby enabling the generation of genuinely novel and challenging verifiable code tasks. Experiments and analysis demonstrate that ADR achieves superior originality, difficulty, diversity, and test quality over existing baselines, and consistently delivers greater improvements in code ability across RLVR in diverse downstream domains, including algorithmic programming, tool usage, and data science. Our work sheds light on a new paradigm for novel code task synthesis and scalable RLVR training.