메타 평가를 통한 강화 학습: 실측 레이블 없이 언어 모델 정렬하기
Reinforcement Learning from Meta-Evaluation: Aligning Language Models Without Ground-Truth Labels
January 29, 2026
저자: Micah Rentschler, Jesse Roberts
cs.AI
초록
대규모 언어 모델(LLM)을 훈련시키기 위한 대부분의 강화 학습(RL) 방법은 정답 레이블이나 작업별 검증기가 필요하여, 정확성을 판단하기 어렵거나 비용이 많이 드는 경우 확장성을 제한합니다. 본 연구에서는 메타 평가를 통한 강화 학습(RLME)을 제안합니다. 이 방법은 자연어 메타 질문(예: "답변이 정확한가요?" 또는 "추론이 논리적으로 일관된가요?")에 대한 평가자의 응답에서 도출된 보상을 생성기에 활용합니다. RLME는 평가자의 긍정적 판단 확률을 보상으로 간주하고 그룹 상대 정책 최적화를 통해 생성기를 업데이트하여 레이블 없이도 학습이 가능하게 합니다. 일련의 실험을 통해 RLME가 레이블 기반 훈련과 비슷한 정확도와 샘플 효율성을 달성하며, 다중 목표 간 제어 가능한 트레이드오프를 가능하게 하고, 사후 합리화보다는 신뢰할 수 있는 추론 패턴으로 모델을 이끌며, 정답 레이블을 사용할 수 없는 개방형 도메인 환경으로 일반화되어 RL로 LLM을 훈련시킬 수 있는 영역을 확장함을 보여줍니다.
English
Most reinforcement learning (RL) methods for training large language models (LLMs) require ground-truth labels or task-specific verifiers, limiting scalability when correctness is ambiguous or expensive to obtain. We introduce Reinforcement Learning from Meta-Evaluation (RLME), which optimizes a generator using reward derived from an evaluator's answers to natural-language meta-questions (e.g., "Is the answer correct?" or "Is the reasoning logically consistent?"). RLME treats the evaluator's probability of a positive judgment as a reward and updates the generator via group-relative policy optimization, enabling learning without labels. Across a suite of experiments, we show that RLME achieves accuracy and sample efficiency comparable to label-based training, enables controllable trade-offs among multiple objectives, steers models toward reliable reasoning patterns rather than post-hoc rationalization, and generalizes to open-domain settings where ground-truth labels are unavailable, broadening the domains in which LLMs may be trained with RL.