모델-태스크 정렬이 구별되는 강화학습 결과를 이끈다
Model-Task Alignment Drives Distinct RL Outcomes
August 28, 2025
저자: Haoze Wu, Cheng Wang, Wenshuo Zhao, Junxian He
cs.AI
초록
대규모 언어 모델(LLM)에 강화 학습(RL)을 적용한 최근의 발전은 상당한 진전을 이뤄냈습니다. 특히, LLM에서 전통적인 RL 환경에서는 일반적으로 관찰되지 않는 패턴을 보이는 일련의 주목할 만하면서도 종종 직관에 반하는 현상들이 보고되었습니다. 예를 들어, 단일 훈련 예제가 전체 데이터셋을 사용한 성능과 맞먹을 수 있다는 주장, 보상 신호가 매우 정확할 필요가 없다는 주장, 그리고 부정적 샘플만으로 훈련해도 정교한 보상 기반 방법을 능가하거나 그에 필적할 수 있다는 주장 등이 있습니다. 그러나 이러한 관찰이 성립하는 정확한 조건과, 더욱 중요한 것은 언제 실패하는지에 대해서는 여전히 명확하지 않습니다. 본 연구에서 우리는 RL 관찰을 구분하는 핵심 요소를 규명했습니다: 사전 훈련된 모델이 평가된 작업에서 pass@k 정확도로 측정된 강력한 모델-작업 정렬(Model-Task Alignment)을 이미 보이는지 여부입니다. 다양한 모델 아키텍처와 작업 영역에 걸친 엄격한 실험적 검증을 통해 일련의 직관에 반하는 주장들을 체계적이고 포괄적으로 검토한 결과, 표준 RL 훈련은 설정에 관계없이 일관되게 견고한 반면, 이러한 직관에 반하는 결과들은 모델과 작업이 이미 강력한 모델-작업 정렬을 보일 때만 발생한다는 것을 발견했습니다. 반대로, 이러한 기술들은 더 어려운 환경에서는 상당한 학습을 이끌어내지 못하며, 이 경우 표준 RL 방법이 여전히 효과적입니다.
English
Recent advances in applying reinforcement learning (RL) to large language
models (LLMs) have led to substantial progress. In particular, a series of
remarkable yet often counterintuitive phenomena have been reported in LLMs,
exhibiting patterns not typically observed in traditional RL settings. For
example, notable claims include that a single training example can match the
performance achieved with an entire dataset, that the reward signal does not
need to be very accurate, and that training solely with negative samples can
match or even surpass sophisticated reward-based methods. However, the precise
conditions under which these observations hold - and, critically, when they
fail - remain unclear. In this work, we identify a key factor that
differentiates RL observations: whether the pretrained model already exhibits
strong Model-Task Alignment, as measured by pass@k accuracy on the evaluated
task. Through a systematic and comprehensive examination of a series of
counterintuitive claims, supported by rigorous experimental validation across
different model architectures and task domains, our findings show that while
standard RL training remains consistently robust across settings, many of these
counterintuitive results arise only when the model and task already exhibit
strong model-task alignment. In contrast, these techniques fail to drive
substantial learning in more challenging regimes, where standard RL methods
remain effective.