ChatPaper.aiChatPaper

Versterkend Leren op Basis van Meta-evaluatie: Het Afstemmen van Taalmodellen Zonder Grondwaarde-Labels

Reinforcement Learning from Meta-Evaluation: Aligning Language Models Without Ground-Truth Labels

January 29, 2026
Auteurs: Micah Rentschler, Jesse Roberts
cs.AI

Samenvatting

De meeste reinforcement learning (RL)-methoden voor het trainen van grote taalmmodellen (LLM's) vereisen grond-waarheid-labels of taakspecifieke verifiers, wat de schaalbaarheid beperkt wanneer correctheid ambigu of duur te verkrijgen is. Wij introduceren Reinforcement Learning from Meta-Evaluatie (RLME), dat een generator optimaliseert met behulp van een beloning afgeleid van de antwoorden van een evaluator op natuurlijke-taal meta-vragen (bijvoorbeeld: "Is het antwoord correct?" of "Is de redenering logisch consistent?"). RLME behandelt de waarschijnlijkheid van een positief oordeel van de evaluator als een beloning en werkt de generator bij via groep-relatief beleidsoptimalisatie, waardoor leren zonder labels mogelijk wordt. In een reeks experimenten tonen we aan dat RLME een nauwkeurigheid en sample-efficiëntie bereikt die vergelijkbaar is met op labels gebaseerde training, het mogelijk maakt om controleerbare afwegingen te maken tussen meerdere doelstellingen, modellen stuurt naar betrouwbare redeneerpatronen in plaats van post-hoc rationalisatie, en generaliseert naar open-domein settings waar grond-waarheid-labels niet beschikbaar zijn. Dit verbreedt de domeinen waarin LLM's met RL getraind kunnen worden.
English
Most reinforcement learning (RL) methods for training large language models (LLMs) require ground-truth labels or task-specific verifiers, limiting scalability when correctness is ambiguous or expensive to obtain. We introduce Reinforcement Learning from Meta-Evaluation (RLME), which optimizes a generator using reward derived from an evaluator's answers to natural-language meta-questions (e.g., "Is the answer correct?" or "Is the reasoning logically consistent?"). RLME treats the evaluator's probability of a positive judgment as a reward and updates the generator via group-relative policy optimization, enabling learning without labels. Across a suite of experiments, we show that RLME achieves accuracy and sample efficiency comparable to label-based training, enables controllable trade-offs among multiple objectives, steers models toward reliable reasoning patterns rather than post-hoc rationalization, and generalizes to open-domain settings where ground-truth labels are unavailable, broadening the domains in which LLMs may be trained with RL.
PDF43February 16, 2026