검증 불가능한 LLM 사후 훈련에서 루브릭 기반 보상 모델링을 위한 교차 강화 학습
Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training
February 2, 2026
저자: Ran Xu, Tianci Liu, Zihan Dong, Tony You, Ilgee Hong, Carl Yang, Linjun Zhang, Tao Zhao, Haoyu Wang
cs.AI
초록
기존의 보상 모델은 일반적으로 창의적 글쓰기나 개방형 지시 수행과 같이 검증이 어려운 영역에서 응답 품질의 다면적 특성을 포착하지 못하는 스칼라 점수를 예측합니다. 이러한 한계를 해결하기 위해 본 연구에서는 선호도 피드백을 통한 강화 학습을 사용하여 루브릭 생성기와 평가자를 공동으로 최적화하는 프레임워크인 Rubric-ARM을 제안합니다. 정적 루브릭이나 분리된 학습 파이프라인에 의존하는 기존 방법과 달리, 우리의 접근 방식은 판단 정확도를 극대화하기 위해 학습된 잠재 행동으로 루브릭 생성을 취급합니다. 우리는 동시 업데이트의 비정상성 문제를 완화하기 위해 교번 최적화 전략을 도입하며, 이 학습 일정이 훈련 중 그래디언트 분산을 어떻게 감소시키는지 이론적으로 분석합니다. 광범위한 실험을 통해 Rubric-ARM이 여러 벤치마크에서 기준 모델 대비 최첨단 성능을 달성하고, 오프라인 및 온라인 강화 학습 설정 모두에서 하류 정책 정렬을 크게 개선함을 입증합니다.
English
Standard reward models typically predict scalar scores that fail to capture the multifaceted nature of response quality in non-verifiable domains, such as creative writing or open-ended instruction following. To address this limitation, we propose Rubric-ARM, a framework that jointly optimizes a rubric generator and a judge using reinforcement learning from preference feedback. Unlike existing methods that rely on static rubrics or disjoint training pipelines, our approach treats rubric generation as a latent action learned to maximize judgment accuracy. We introduce an alternating optimization strategy to mitigate the non-stationarity of simultaneous updates, providing theoretical analysis that demonstrates how this schedule reduces gradient variance during training. Extensive experiments show that Rubric-ARM achieves state-of-the-art performance among baselines on multiple benchmarks and significantly improves downstream policy alignment in both offline and online reinforcement learning settings.