Комбинаторный синтез: масштабирование кода RLVR через атомарное разложение и рекомбинацию

Аннотация

Обучение с подкреплением с проверяемыми вознаграждениями (RLVR) недавно стало краеугольным камнем формирования выдающихся навыков программирования больших языковых моделей (БЯМ). Однако масштабируемость RLVR серьезно ограничена нехваткой достаточно сложных проверяемых задач по программированию, находящихся на границе компетенций модели. Предыдущие исследования часто полагаются на эвристические расширения начальных данных для синтеза данных, что серьезно ограничивает как новизну, так и сложность. Следовательно, обучающая ценность таких данных не масштабируется пропорционально объему их синтеза. Для этого мы предлагаем Атомное разложение и рекомбинацию (АРР) — новую методологию, которая генерирует проверяемые задачи по программированию путем разложения на атомные элементы и контролируемой рекомбинации, тем самым позволяя создавать действительно новые и сложные проверяемые задачи по программированию. Эксперименты и анализ показывают, что АРР достигает превосходной оригинальности, сложности, разнообразия и качества тестов по сравнению с существующими базовыми подходами, и постоянно обеспечивает большие улучшения способностей к программированию в рамках RLVR в различных прикладных областях, включая алгоритмическое программирование, использование инструментов и науку о данных. Наша работа проливает свет на новую парадигму синтеза новых задач по программированию и масштабируемого обучения RLVR.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as the cornerstone for shaping the remarkable coding abilities of Large Language Models (LLMs). However, the scalability of RLVR is severely constrained by the scarcity of sufficiently challenging verifiable code tasks that target near the model's edge of competence. Prior studies often rely on heuristic seed expansions for data synthesis, which severely limits both novelty and difficulty. Consequently, the training value of such data fails to scale proportionally with the size of its synthesis. To this end, we propose Atomic Decomposition and Recombination (ADR), a novel framework that generates verifiable code tasks via decomposition into atomic elements and controlled recombination, thereby enabling the generation of genuinely novel and challenging verifiable code tasks. Experiments and analysis demonstrate that ADR achieves superior originality, difficulty, diversity, and test quality over existing baselines, and consistently delivers greater improvements in code ability across RLVR in diverse downstream domains, including algorithmic programming, tool usage, and data science. Our work sheds light on a new paradigm for novel code task synthesis and scalable RLVR training.