ChatPaper.aiChatPaper

SCALER: Synthetische Schaalbare Adaptieve Leeromgeving voor Redeneren

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

January 8, 2026
Auteurs: Caijun Xu, Changyi Xiao, Zhongyuan Peng, Xinrun Wang, Yixin Cao
cs.AI

Samenvatting

Versterkend leren (VL) biedt een principiële manier om de redeneercapaciteiten van grote taalmodellen te verbeteren, maar de effectiviteit ervan hangt af van trainingssignalen die informatief blijven naarmate de modellen evolueren. In de praktijk vertraagt de VL-vooruitgang vaak wanneer de taakmoeilijkheid niet goed is afgestemd op de modelcapaciteit, of wanneer de training wordt gedomineerd door een beperkte set terugkerende probleempatronen. Om deze problemen gezamenlijk aan te pakken, stellen wij SCALER voor (Synthetic sCalable Adaptive Learning Environment for Reasoning), een raamwerk dat effectieve leersignalen in stand houdt door adaptieve omgevingsontwerp. SCALER introduceert een schaalbare synthesepijplijn die real-world programmeerproblemen omzet in verifieerbare redeneeromgevingen met controleerbare moeilijkheidsgraad en onbeperkte instantiegeneratie, waardoor VL-training voorbij eindige datasets mogelijk wordt terwijl sterke correctheidsgaranties behouden blijven. Hierop voortbordurend past SCALER verder een adaptieve multi-omgeving VL-strategie toe die dynamisch de instantiemoeilijkheid aanpast en de actieve set van omgevingen samenstelt om de capaciteitsgrens van het model te volgen en distributionele diversiteit te behouden. Deze co-adaptatie voorkomt rewardschaarste, vermindert overfitting aan nauwe taakpatronen en ondersteunt een aanhoudende verbetering gedurende de hele training. Uitgebreide experimenten tonen aan dat SCALER consistent beter presteert dan op datasets gebaseerde VL-basislijnen over diverse redeneerbenchmarks heen en stabielere, langetermijntrainingsdynamieken vertoont.
English
Reinforcement learning (RL) offers a principled way to enhance the reasoning capabilities of large language models, yet its effectiveness hinges on training signals that remain informative as models evolve. In practice, RL progress often slows when task difficulty becomes poorly aligned with model capability, or when training is dominated by a narrow set of recurring problem patterns. To jointly address these issues, we propose SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning), a framework that sustains effective learning signals through adaptive environment design. SCALER introduces a scalable synthesis pipeline that converts real-world programming problems into verifiable reasoning environments with controllable difficulty and unbounded instance generation, enabling RL training beyond finite datasets while preserving strong correctness guarantees. Building on this, SCALER further employs an adaptive multi-environment RL strategy that dynamically adjusts instance difficulty and curates the active set of environments to track the model's capability frontier and maintain distributional diversity. This co-adaptation prevents reward sparsity, mitigates overfitting to narrow task patterns, and supports sustained improvement throughout training. Extensive experiments show that SCALER consistently outperforms dataset-based RL baselines across diverse reasoning benchmarks and exhibits more stable, long-horizon training dynamics.
PDF11January 16, 2026