Überprüfbare Umgebungen sind LEGO-Steine: Rekursive Komposition zur Verallgemeinerung des Denkens

Zusammenfassung

Verstärkungslernen (RL) mit verifizierbaren Umgebungen hat sich als wirkungsvoller Ansatz zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) erwiesen. Während frühere Arbeiten zeigen, dass eine Skalierung der Umgebungsanzahl die RL-Leistung verbessert, unterliegen bestehende manuelle oder individuelle Konstruktionsmethoden linearen Skalierungsgrenzen, was eine skalierbare Reasoning-Generalization behindert. In diesem Papier wird RACES (Recursive Automated Composition for Environment Scaling) vorgestellt, ein Framework, das verifizierbare Umgebungen als zusammensetzbare Bausteine konzeptualisiert, die rekursiv zusammengefügt werden können. Die zentrale Erkenntnis ist, dass, wenn der Wertebereich (Ausgabetyp) einer Umgebung mit dem Definitionsbereich (Eingabetyp) einer anderen übereinstimmt, diese automatisch zu einer neuen verifizierbaren Umgebung fusioniert werden können, was eine rekursive Zusammensetzung ermöglicht. RACES wird mit 300 individuellen Umgebungen implementiert und definiert eine Reihe von Kompositionsoperatoren (SEQUENTIAL, PARALLEL, SORT und SELECT), die diverse Reasoning-Muster induzieren. Umfangreiche Experimente zeigen, dass RL-Training auf diesen zusammengesetzten Umgebungen konsequent die Reasoning-Generalization verbessert. Insbesondere verbessert RACES DeepSeek-R1-Distill-Qwen-14B um durchschnittlich 3,1 Punkte (von 48,2 auf 51,3) und steigert die Leistung von Qwen3-14B von 58,8 auf 61,1 bei sechs Benchmarks, die während der Konstruktion der Trainingsumgebungen nicht gesehen wurden. Darüber hinaus erreicht RACES mit nur 50 Basisumgebungen eine vergleichbare Leistung wie das Training auf 300 individuellen Umgebungen, was eine erhebliche Effizienz bei der Umgebungsnutzung demonstriert.

English

Reinforcement Learning (RL) with verifiable environments has emerged as a powerful approach for enhancing the reasoning capabilities of Large Language Models (LLMs). While prior research demonstrates that scaling environment quantity improves RL performance, existing manual or individual construction methods suffer from linear scaling limits, thereby hindering scalable reasoning generalization. This paper introduces RACES (Recursive Automated Composition for Environment Scaling), a framework that conceptualizes verifiable environments as composable building blocks that can be recursively assembled. The key insight is that when the codomain (output type) of one environment matches the domain (input type) of another, they can be automatically fused into a new verifiable environment, enabling recursive composition. RACES is implemented with 300 individual environments and defines a set of composition operators (SEQUENTIAL, PARALLEL, SORT, and SELECT) that induce diverse reasoning patterns. Extensive experiments show that RL training on these composite environments consistently enhances reasoning generalization. Specifically, RACES improves DeepSeek-R1-Distill-Qwen-14B by an average of 3.1 points (from 48.2 to 51.3) and boosts Qwen3-14B performance from 58.8 to 61.1 on six benchmarks, which are unseen during the construction of training environments. Moreover, RACES achieves performance comparable to training on 300 individual environments using only 50 base environments, demonstrating significant efficiency in environment utilization.