Los entornos verificables son bloques LEGO: composición recursiva para la generalización del razonamiento

Resumen

El Aprendizaje por Refuerzo (RL) con entornos verificables ha surgido como un enfoque poderoso para mejorar las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs). Aunque investigaciones previas demuestran que escalar la cantidad de entornos mejora el rendimiento del RL, los métodos manuales o de construcción individual existentes presentan límites de escalado lineal, lo que dificulta la generalización del razonamiento a escala. Este artículo introduce RACES (Recursive Automated Composition for Environment Scaling), un marco conceptual que considera los entornos verificables como bloques de construcción componibles que pueden ensamblarse recursivamente. La idea clave es que cuando el codominio (tipo de salida) de un entorno coincide con el dominio (tipo de entrada) de otro, pueden fusionarse automáticamente en un nuevo entorno verificable, permitiendo la composición recursiva. RACES se implementa con 300 entornos individuales y define un conjunto de operadores de composición (SEQUENTIAL, PARALLEL, SORT y SELECT) que inducen diversos patrones de razonamiento. Experimentos exhaustivos muestran que el entrenamiento con RL en estos entornos compuestos mejora consistentemente la generalización del razonamiento. En concreto, RACES mejora a DeepSeek-R1-Distill-Qwen-14B en un promedio de 3.1 puntos (de 48.2 a 51.3) y aumenta el rendimiento de Qwen3-14B de 58.8 a 61.1 en seis benchmarks, los cuales no se habían visto durante la construcción de los entornos de entrenamiento. Además, RACES consigue un rendimiento comparable al entrenamiento con 300 entornos individuales utilizando solo 50 entornos base, lo que demuestra una eficiencia significativa en la utilización de entornos.

English

Reinforcement Learning (RL) with verifiable environments has emerged as a powerful approach for enhancing the reasoning capabilities of Large Language Models (LLMs). While prior research demonstrates that scaling environment quantity improves RL performance, existing manual or individual construction methods suffer from linear scaling limits, thereby hindering scalable reasoning generalization. This paper introduces RACES (Recursive Automated Composition for Environment Scaling), a framework that conceptualizes verifiable environments as composable building blocks that can be recursively assembled. The key insight is that when the codomain (output type) of one environment matches the domain (input type) of another, they can be automatically fused into a new verifiable environment, enabling recursive composition. RACES is implemented with 300 individual environments and defines a set of composition operators (SEQUENTIAL, PARALLEL, SORT, and SELECT) that induce diverse reasoning patterns. Extensive experiments show that RL training on these composite environments consistently enhances reasoning generalization. Specifically, RACES improves DeepSeek-R1-Distill-Qwen-14B by an average of 3.1 points (from 48.2 to 51.3) and boosts Qwen3-14B performance from 58.8 to 61.1 on six benchmarks, which are unseen during the construction of training environments. Moreover, RACES achieves performance comparable to training on 300 individual environments using only 50 base environments, demonstrating significant efficiency in environment utilization.