Ambientes verificáveis são blocos LEGO: composição recursiva para generalização de raciocínio

Resumo

A Aprendizagem por Reforço (AR) com ambientes verificáveis emergiu como uma abordagem poderosa para aprimorar as capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs). Embora pesquisas anteriores demonstrem que o escalonamento da quantidade de ambientes melhora o desempenho da AR, os métodos existentes de construção manual ou individual sofrem de limites de escalonamento linear, dificultando assim a generalização escalável do raciocínio. Este artigo apresenta o RACES (Recursive Automated Composition for Environment Scaling), uma estrutura conceitual que trata ambientes verificáveis como blocos de construção componíveis que podem ser montados recursivamente. A percepção central é que, quando o codomínio (tipo de saída) de um ambiente corresponde ao domínio (tipo de entrada) de outro, eles podem ser automaticamente fundidos em um novo ambiente verificável, possibilitando a composição recursiva. O RACES é implementado com 300 ambientes individuais e define um conjunto de operadores de composição (SEQUENTIAL, PARALLEL, SORT e SELECT) que induzem padrões diversos de raciocínio. Experimentos extensivos mostram que o treinamento com AR nesses ambientes compostos melhora consistentemente a generalização do raciocínio. Especificamente, o RACES melhora o DeepSeek-R1-Distill-Qwen-14B em média 3,1 pontos (de 48,2 para 51,3) e eleva o desempenho do Qwen3-14B de 58,8 para 61,1 em seis benchmarks, que não foram vistos durante a construção dos ambientes de treinamento. Além disso, o RACES alcança desempenho comparável ao treinamento com 300 ambientes individuais utilizando apenas 50 ambientes base, demonstrando eficiência significativa na utilização de ambientes.

English

Reinforcement Learning (RL) with verifiable environments has emerged as a powerful approach for enhancing the reasoning capabilities of Large Language Models (LLMs). While prior research demonstrates that scaling environment quantity improves RL performance, existing manual or individual construction methods suffer from linear scaling limits, thereby hindering scalable reasoning generalization. This paper introduces RACES (Recursive Automated Composition for Environment Scaling), a framework that conceptualizes verifiable environments as composable building blocks that can be recursively assembled. The key insight is that when the codomain (output type) of one environment matches the domain (input type) of another, they can be automatically fused into a new verifiable environment, enabling recursive composition. RACES is implemented with 300 individual environments and defines a set of composition operators (SEQUENTIAL, PARALLEL, SORT, and SELECT) that induce diverse reasoning patterns. Extensive experiments show that RL training on these composite environments consistently enhances reasoning generalization. Specifically, RACES improves DeepSeek-R1-Distill-Qwen-14B by an average of 3.1 points (from 48.2 to 51.3) and boosts Qwen3-14B performance from 58.8 to 61.1 on six benchmarks, which are unseen during the construction of training environments. Moreover, RACES achieves performance comparable to training on 300 individual environments using only 50 base environments, demonstrating significant efficiency in environment utilization.