SCALER: Entorno de Aprendizaje Adaptativo Escalable Sintético para el Razonamiento
SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning
January 8, 2026
Autores: Caijun Xu, Changyi Xiao, Zhongyuan Peng, Xinrun Wang, Yixin Cao
cs.AI
Resumen
El aprendizaje por refuerzo (RL) ofrece un método fundamentado para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes; sin embargo, su eficacia depende de señales de entrenamiento que sigan siendo informativas a medida que los modelos evolucionan. En la práctica, el progreso del RL a menudo se ralentiza cuando la dificultad de la tarea se desalinea con la capacidad del modelo, o cuando el entrenamiento está dominado por un conjunto reducido de patrones de problemas recurrentes. Para abordar conjuntamente estos problemas, proponemos SCALER (Entorno de Aprendizaje Adaptativo Sintético y Escalable para el Razonamiento), un marco que mantiene señales de aprendizaje efectivas mediante el diseño adaptativo del entorno. SCALER introduce un pipeline de síntesis escalable que convierte problemas de programación del mundo real en entornos de razonamiento verificables con dificultad controlable y generación ilimitada de instancias, permitiendo el entrenamiento con RL más allá de conjuntos de datos finitos mientras preserva sólidas garantías de corrección. Sobre esta base, SCALER emplea además una estrategia de RL multi-entorno adaptativa que ajusta dinámicamente la dificultad de las instancias y selecciona el conjunto activo de entornos para rastrear la frontera de capacidad del modelo y mantener la diversidad distribucional. Esta co-adaptación previene la dispersión de la recompensa, mitiga el sobreajuste a patrones de tareas estrechos y favorece una mejora sostenida durante todo el entrenamiento. Experimentos exhaustivos demuestran que SCALER supera consistentemente a los métodos baseline de RL basados en conjuntos de datos en diversos benchmarks de razonamiento y exhibe una dinámica de entrenamiento más estable y de largo plazo.
English
Reinforcement learning (RL) offers a principled way to enhance the reasoning capabilities of large language models, yet its effectiveness hinges on training signals that remain informative as models evolve. In practice, RL progress often slows when task difficulty becomes poorly aligned with model capability, or when training is dominated by a narrow set of recurring problem patterns. To jointly address these issues, we propose SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning), a framework that sustains effective learning signals through adaptive environment design. SCALER introduces a scalable synthesis pipeline that converts real-world programming problems into verifiable reasoning environments with controllable difficulty and unbounded instance generation, enabling RL training beyond finite datasets while preserving strong correctness guarantees. Building on this, SCALER further employs an adaptive multi-environment RL strategy that dynamically adjusts instance difficulty and curates the active set of environments to track the model's capability frontier and maintain distributional diversity. This co-adaptation prevents reward sparsity, mitigates overfitting to narrow task patterns, and supports sustained improvement throughout training. Extensive experiments show that SCALER consistently outperforms dataset-based RL baselines across diverse reasoning benchmarks and exhibits more stable, long-horizon training dynamics.