ChatPaper.aiChatPaper

SCALER: 합성 확장 가능 적응형 추론 학습 환경

SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning

January 8, 2026
저자: Caijun Xu, Changyi Xiao, Zhongyuan Peng, Xinrun Wang, Yixin Cao
cs.AI

초록

강화학습(Reinforcement Learning, RL)은 대규모 언어 모델의 추론 능력을 향상시키는 원칙적인 방법을 제공하지만, 그 효과성은 모델이 진화함에 따라 정보를 유지하는 훈련 신호에 달려 있습니다. 실제로 RL의 진전은 과제 난이도가 모델 능력과 잘 맞지 않거나, 훈련이 반복되는 소수의 문제 패턴에 지배될 때 종종 느려집니다. 이러한 문제를 종합적으로 해결하기 위해, 우리는 적응형 환경 설계를 통해 효과적인 학습 신호를 지속하는 프레임워크인 SCALER(Synthetic sCalable Adaptive Learning Environment for Reasoning)를 제안합니다. SCALER는 실제 프로그래밍 문제를 난이도를 제어할 수 있고 무한한 인스턴스 생성을 지원하는 검증 가능한 추론 환경으로 변환하는 확장 가능한 합성 파이프라인을 도입합니다. 이를 통해 유한한 데이터셋의 한계를 넘어서면서도 강력한 정확성 보장을 유지하는 RL 훈련이 가능해집니다. 이를 기반으로 SCALER는 모델의 능력 최전선을 추적하고 분포 다양성을 유지하기 위해 인스턴스 난이도를 동적으로 조정하고 활성 환경 집합을 선별하는 적응형 다중 환경 RL 전략을 추가로 활용합니다. 이러한 공동 적응(co-adaptation)은 보상 희소성을 방지하고 좁은 과제 패턴에의 과적합을 완화하며 훈련 전반에 걸쳐 지속적인 개선을 지원합니다. 폭넓은 실험을 통해 SCALER가 다양한 추론 벤치마크에서 데이터셋 기반 RL 기준선을 꾸준히 능가하고, 더 안정적이며 장기적인 훈련 역동성을 보여줌을 확인했습니다.
English
Reinforcement learning (RL) offers a principled way to enhance the reasoning capabilities of large language models, yet its effectiveness hinges on training signals that remain informative as models evolve. In practice, RL progress often slows when task difficulty becomes poorly aligned with model capability, or when training is dominated by a narrow set of recurring problem patterns. To jointly address these issues, we propose SCALER (Synthetic sCalable Adaptive Learning Environment for Reasoning), a framework that sustains effective learning signals through adaptive environment design. SCALER introduces a scalable synthesis pipeline that converts real-world programming problems into verifiable reasoning environments with controllable difficulty and unbounded instance generation, enabling RL training beyond finite datasets while preserving strong correctness guarantees. Building on this, SCALER further employs an adaptive multi-environment RL strategy that dynamically adjusts instance difficulty and curates the active set of environments to track the model's capability frontier and maintain distributional diversity. This co-adaptation prevents reward sparsity, mitigates overfitting to narrow task patterns, and supports sustained improvement throughout training. Extensive experiments show that SCALER consistently outperforms dataset-based RL baselines across diverse reasoning benchmarks and exhibits more stable, long-horizon training dynamics.
PDF11January 16, 2026