ChatPaper.aiChatPaper

Apprendimento per Rinforzo da Meta-Valutazione: Allineamento di Modelli Linguistici Senza Etichette di Verità Fondamentale

Reinforcement Learning from Meta-Evaluation: Aligning Language Models Without Ground-Truth Labels

January 29, 2026
Autori: Micah Rentschler, Jesse Roberts
cs.AI

Abstract

La maggior parte dei metodi di apprendimento per rinforzo (RL) per l'addestramento di grandi modelli linguistici (LLM) richiede etichette di verità fondamentale o verificatori specifici per compito, limitando la scalabilità quando la correttezza è ambigua o costosa da ottenere. Introduciamo l'Apprendimento per Rinforzo da Meta-Valutazione (RLME), che ottimizza un generatore utilizzando una ricompensa derivata dalle risposte di un valutatore a meta-domande in linguaggio naturale (ad esempio, "La risposta è corretta?" o "Il ragionamento è logicamente coerente?"). RLME tratta la probabilità di un giudizio positivo del valutatore come una ricompensa e aggiorna il generatore tramite l'ottimizzazione della politica relativa al gruppo, consentendo l'apprendimento senza etichette. In una serie di esperimenti, dimostriamo che RLME raggiunge un'accuratezza e un'efficienza campionaria comparabili all'addestramento basato su etichette, consente compromessi controllabili tra molteplici obiettivi, indirizza i modelli verso schemi di ragionamento affidabili anziché verso razionalizzazioni a posteriori e generalizza a contesti open-domain dove le etichette di verità fondamentale non sono disponibili, ampliando così i domini in cui gli LLM possono essere addestrati con l'RL.
English
Most reinforcement learning (RL) methods for training large language models (LLMs) require ground-truth labels or task-specific verifiers, limiting scalability when correctness is ambiguous or expensive to obtain. We introduce Reinforcement Learning from Meta-Evaluation (RLME), which optimizes a generator using reward derived from an evaluator's answers to natural-language meta-questions (e.g., "Is the answer correct?" or "Is the reasoning logically consistent?"). RLME treats the evaluator's probability of a positive judgment as a reward and updates the generator via group-relative policy optimization, enabling learning without labels. Across a suite of experiments, we show that RLME achieves accuracy and sample efficiency comparable to label-based training, enables controllable trade-offs among multiple objectives, steers models toward reliable reasoning patterns rather than post-hoc rationalization, and generalizes to open-domain settings where ground-truth labels are unavailable, broadening the domains in which LLMs may be trained with RL.
PDF43February 16, 2026