SCALER: Ambiente Sintético Escalável de Aprendizagem Adaptativa para Raciocínio

Resumo

O aprendizado por reforço (RL) oferece uma abordagem fundamentada para aprimorar as capacidades de raciocínio de modelos de linguagem de grande porte, contudo sua eficácia depende de sinais de treinamento que permaneçam informativos à medida que os modelos evoluem. Na prática, o progresso do RL frequentemente desacelera quando a dificuldade da tarefa fica mal alinhada com a capacidade do modelo, ou quando o treinamento é dominado por um conjunto restrito de padrões recorrentes de problemas. Para abordar essas questões conjuntamente, propomos o SCALER (Ambiente de Aprendizado Adaptável Sintético e Escalável para Raciocínio), uma estrutura que mantém sinais de aprendizado eficazes por meio de um design de ambiente adaptativo. O SCALER introduz um *pipeline* de síntese escalável que converte problemas de programação do mundo real em ambientes de raciocínio verificáveis com dificuldade controlável e geração ilimitada de instâncias, permitindo o treinamento por RL além de conjuntos de dados finitos, preservando fortes garantias de correção. Com base nisso, o SCALER emprega ainda uma estratégia de RL multi-ambiente adaptativa que ajusta dinamicamente a dificuldade das instâncias e seleciona o conjunto ativo de ambientes para acompanhar a fronteira de capacidade do modelo e manter a diversidade distribucional. Esta co-adaptação previne a esparsidade de recompensas, mitiga o sobreajuste a padrões de tarefa restritos e apoia uma melhoria sustentada ao longo do treinamento. Experimentos extensivos mostram que o SCALER supera consistentemente as linhas de base de RL baseadas em conjuntos de dados em diversas referências de raciocínio e exibe dinâmicas de treinamento mais estáveis e de longo prazo.

English

Reinforcement learning (RL) offers a principled way to enhance the reasoning capabilities of large language models, yet its effectiveness hinges on training signals that remain informative as models evolve. In practice, RL progress often slows when task difficulty becomes poorly aligned with model capability, or when training is dominated by a narrow set of recurring problem patterns. To jointly address these issues, we propose SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning), a framework that sustains effective learning signals through adaptive environment design. SCALER introduces a scalable synthesis pipeline that converts real-world programming problems into verifiable reasoning environments with controllable difficulty and unbounded instance generation, enabling RL training beyond finite datasets while preserving strong correctness guarantees. Building on this, SCALER further employs an adaptive multi-environment RL strategy that dynamically adjusts instance difficulty and curates the active set of environments to track the model's capability frontier and maintain distributional diversity. This co-adaptation prevents reward sparsity, mitigates overfitting to narrow task patterns, and supports sustained improvement throughout training. Extensive experiments show that SCALER consistently outperforms dataset-based RL baselines across diverse reasoning benchmarks and exhibits more stable, long-horizon training dynamics.

SCALER: Ambiente Sintético Escalável de Aprendizagem Adaptativa para Raciocínio

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

Resumo

Support