Verifieerbare omgevingen zijn LEGO-blokjes: recursieve compositie voor redeneringsgeneralisatie

Samenvatting

Reinforcement Learning (RL) met verifieerbare omgevingen is naar voren gekomen als een krachtige benadering om de redeneervermogens van grote taalmodellen (LLM’s) te verbeteren. Hoewel eerder onderzoek aantoont dat het schalen van het aantal omgevingen de RL-prestaties verbetert, lijden bestaande handmatige of individuele constructiemethoden onder lineaire schalingslimieten, wat schaalbare redeneergeneralisatie belemmert. Dit artikel introduceert RACES (Recursive Automated Composition for Environment Scaling), een raamwerk dat verifieerbare omgevingen conceptualiseert als composable bouwstenen die recursief kunnen worden samengesteld. Het belangrijkste inzicht is dat wanneer het codomein (uitvoertype) van de ene omgeving overeenkomt met het domein (invoertype) van een andere, ze automatisch kunnen worden samengevoegd tot een nieuwe verifieerbare omgeving, waardoor recursieve compositie mogelijk wordt. RACES is geïmplementeerd met 300 individuele omgevingen en definieert een reeks compositieoperatoren (SEQUENTIAL, PARALLEL, SORT en SELECT) die diverse redeneerpatronen induceren. Uitgebreide experimenten tonen aan dat RL-training op deze composiete omgevingen consistent de redeneergeneralisatie verbetert. Specifiek verbetert RACES DeepSeek-R1-Distill-Qwen-14B met gemiddeld 3,1 punten (van 48,2 naar 51,3) en verhoogt het de prestaties van Qwen3-14B van 58,8 naar 61,1 op zes benchmarks, die niet zijn gezien tijdens de constructie van trainingsomgevingen. Bovendien bereikt RACES prestaties die vergelijkbaar zijn met training op 300 individuele omgevingen, waarbij slechts 50 basisomgevingen worden gebruikt, wat een significante efficiëntie in omgevingsgebruik aantoont.

English

Reinforcement Learning (RL) with verifiable environments has emerged as a powerful approach for enhancing the reasoning capabilities of Large Language Models (LLMs). While prior research demonstrates that scaling environment quantity improves RL performance, existing manual or individual construction methods suffer from linear scaling limits, thereby hindering scalable reasoning generalization. This paper introduces RACES (Recursive Automated Composition for Environment Scaling), a framework that conceptualizes verifiable environments as composable building blocks that can be recursively assembled. The key insight is that when the codomain (output type) of one environment matches the domain (input type) of another, they can be automatically fused into a new verifiable environment, enabling recursive composition. RACES is implemented with 300 individual environments and defines a set of composition operators (SEQUENTIAL, PARALLEL, SORT, and SELECT) that induce diverse reasoning patterns. Extensive experiments show that RL training on these composite environments consistently enhances reasoning generalization. Specifically, RACES improves DeepSeek-R1-Distill-Qwen-14B by an average of 3.1 points (from 48.2 to 51.3) and boosts Qwen3-14B performance from 58.8 to 61.1 on six benchmarks, which are unseen during the construction of training environments. Moreover, RACES achieves performance comparable to training on 300 individual environments using only 50 base environments, demonstrating significant efficiency in environment utilization.