メタ評価からの強化学習:正解ラベルなしでの言語モデルの整合性調整
Reinforcement Learning from Meta-Evaluation: Aligning Language Models Without Ground-Truth Labels
January 29, 2026
著者: Micah Rentschler, Jesse Roberts
cs.AI
要旨
大規模言語モデル(LLM)の訓練における従来の強化学習(RL)手法の多くは、正解ラベルまたはタスク固有の検証器を必要とするため、正解が曖昧あるいは取得コストが高い場合に拡張性が制限される。本論文では、メタ評価による強化学習(Reinforcement Learning from Meta-Evaluation: RLME)を提案する。本手法では、評価者が自然言語のメタ質問(例:「答えは正しいか?」「推論は論理的一貫性があるか?」)に対して与える回答から導出された報酬を用いて生成器を最適化する。RLMEは評価者の肯定的判断の確率を報酬として扱い、グループ相対方策最適化により生成器を更新することで、ラベルなしでの学習を可能とする。一連の実験を通じて、RLMEがラベルベースの訓練に匹敵する精度とサンプル効率を達成し、複数目的間の制御可能なトレードオフを実現し、事後的な合理化ではなく信頼性の高い推論パターンへモデルを方向付け、さらに正解ラベルが利用不能なオープンドメイン設定へ一般化することを示す。これにより、強化学習が適用可能なLLM訓練の領域が拡大される。
English
Most reinforcement learning (RL) methods for training large language models (LLMs) require ground-truth labels or task-specific verifiers, limiting scalability when correctness is ambiguous or expensive to obtain. We introduce Reinforcement Learning from Meta-Evaluation (RLME), which optimizes a generator using reward derived from an evaluator's answers to natural-language meta-questions (e.g., "Is the answer correct?" or "Is the reasoning logically consistent?"). RLME treats the evaluator's probability of a positive judgment as a reward and updates the generator via group-relative policy optimization, enabling learning without labels. Across a suite of experiments, we show that RLME achieves accuracy and sample efficiency comparable to label-based training, enables controllable trade-offs among multiple objectives, steers models toward reliable reasoning patterns rather than post-hoc rationalization, and generalizes to open-domain settings where ground-truth labels are unavailable, broadening the domains in which LLMs may be trained with RL.