SCALER: Ambiente Sintetico Scalabile di Apprendimento Adattivo per il Ragionamento

Abstract

L'apprendimento per rinforzo (RL) offre un metodo rigoroso per potenziare le capacità di ragionamento dei grandi modelli linguistici, ma la sua efficacia dipende da segnali di addestramento che rimangono informativi man mano che i modelli evolvono. In pratica, i progressi dell'RL spesso rallentano quando la difficoltà del compito non è più allineata con le capacità del modello, o quando l'addestramento è dominato da un ristretto insieme di pattern problematici ricorrenti. Per affrontare congiuntamente questi problemi, proponiamo SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning), un framework che mantiene segnali di apprendimento efficaci attraverso un design adattativo dell'ambiente. SCALER introduce una pipeline di sintesi scalabile che converte problemi di programmazione del mondo reale in ambienti di ragionamento verificabili, con difficoltà controllabile e generazione illimitata di istanze, consentendo l'addestramento RL oltre i dataset finiti preservando al contempo solide garanzie di correttezza. Basandosi su questo, SCALER impiega inoltre una strategia RL adattativa multi-ambiente che regola dinamicamente la difficoltà delle istanze e seleziona l'insieme attivo di ambienti per seguire la frontiera delle capacità del modello e mantenere la diversità distribuzionale. Questa co-adattamento previene la scarsità di ricompense, mitiga l'overfitting su pattern di compiti ristretti e supporta un miglioramento sostenuto durante tutto l'addestramento. Esperimenti estensivi mostrano che SCALER supera costantemente i baseline RL basati su dataset in vari benchmark di ragionamento ed esibisce dinamiche di addestramento più stabili e di lungo periodo.

English

Reinforcement learning (RL) offers a principled way to enhance the reasoning capabilities of large language models, yet its effectiveness hinges on training signals that remain informative as models evolve. In practice, RL progress often slows when task difficulty becomes poorly aligned with model capability, or when training is dominated by a narrow set of recurring problem patterns. To jointly address these issues, we propose SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning), a framework that sustains effective learning signals through adaptive environment design. SCALER introduces a scalable synthesis pipeline that converts real-world programming problems into verifiable reasoning environments with controllable difficulty and unbounded instance generation, enabling RL training beyond finite datasets while preserving strong correctness guarantees. Building on this, SCALER further employs an adaptive multi-environment RL strategy that dynamically adjusts instance difficulty and curates the active set of environments to track the model's capability frontier and maintain distributional diversity. This co-adaptation prevents reward sparsity, mitigates overfitting to narrow task patterns, and supports sustained improvement throughout training. Extensive experiments show that SCALER consistently outperforms dataset-based RL baselines across diverse reasoning benchmarks and exhibits more stable, long-horizon training dynamics.

SCALER: Ambiente Sintetico Scalabile di Apprendimento Adattivo per il Ragionamento

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Abstract

Support