Les environnements vérifiables sont des briques LEGO : Composition récursive pour la généralisation du raisonnement

Résumé

L'apprentissage par renforcement (RL) avec des environnements vérifiables est devenu une approche puissante pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs). Bien que des recherches antérieures montrent que l'augmentation du nombre d'environnements améliore les performances du RL, les méthodes de construction manuelles ou individuelles existantes souffrent de limites d'échelle linéaire, entravant ainsi une généralisation scalable du raisonnement. Cet article présente RACES (Recursive Automated Composition for Environment Scaling), un cadre conceptuel qui considère les environnements vérifiables comme des blocs de construction composables pouvant être assemblés de manière récursive. L'idée clé est que lorsque le codomaine (type de sortie) d'un environnement correspond au domaine (type d'entrée) d'un autre, ils peuvent être automatiquement fusionnés en un nouvel environnement vérifiable, permettant une composition récursive. RACES est implémenté avec 300 environnements individuels et définit un ensemble d'opérateurs de composition (SÉQUENTIEL, PARALLÈLE, TRIER et SÉLECTIONNER) qui induisent divers schémas de raisonnement. Des expériences approfondies montrent que l'entraînement par RL sur ces environnements composites améliore constamment la généralisation du raisonnement. En particulier, RACES améliore DeepSeek-R1-Distill-Qwen-14B de 3,1 points en moyenne (de 48,2 à 51,3) et augmente les performances de Qwen3-14B de 58,8 à 61,1 sur six benchmarks, qui sont inédits lors de la construction des environnements d'entraînement. De plus, RACES atteint des performances comparables à un entraînement sur 300 environnements individuels en n'utilisant que 50 environnements de base, démontrant ainsi une efficacité significative dans l'utilisation des environnements.

English

Reinforcement Learning (RL) with verifiable environments has emerged as a powerful approach for enhancing the reasoning capabilities of Large Language Models (LLMs). While prior research demonstrates that scaling environment quantity improves RL performance, existing manual or individual construction methods suffer from linear scaling limits, thereby hindering scalable reasoning generalization. This paper introduces RACES (Recursive Automated Composition for Environment Scaling), a framework that conceptualizes verifiable environments as composable building blocks that can be recursively assembled. The key insight is that when the codomain (output type) of one environment matches the domain (input type) of another, they can be automatically fused into a new verifiable environment, enabling recursive composition. RACES is implemented with 300 individual environments and defines a set of composition operators (SEQUENTIAL, PARALLEL, SORT, and SELECT) that induce diverse reasoning patterns. Extensive experiments show that RL training on these composite environments consistently enhances reasoning generalization. Specifically, RACES improves DeepSeek-R1-Distill-Qwen-14B by an average of 3.1 points (from 48.2 to 51.3) and boosts Qwen3-14B performance from 58.8 to 61.1 on six benchmarks, which are unseen during the construction of training environments. Moreover, RACES achieves performance comparable to training on 300 individual environments using only 50 base environments, demonstrating significant efficiency in environment utilization.