Apprentissage par Renforcement à partir de la Méta-Évaluation : Aligner les Modèles de Langage sans Étiquettes de Vérité Terrain
Reinforcement Learning from Meta-Evaluation: Aligning Language Models Without Ground-Truth Labels
January 29, 2026
papers.authors: Micah Rentschler, Jesse Roberts
cs.AI
papers.abstract
La plupart des méthodes d'apprentissage par renforcement (RL) pour l'entraînement des grands modèles de langage (LLM) nécessitent des étiquettes de vérité terrain ou des vérificateurs spécifiques à la tâche, ce qui limite leur extensibilité lorsque la notion de correction est ambiguë ou coûteuse à obtenir. Nous présentons l'Apprentissage par Renforcement à partir de Méta-Évaluation (RLME), qui optimise un générateur en utilisant une récompense dérivée des réponses d'un évaluateur à des méta-questions en langage naturel (par exemple, « La réponse est-elle correcte ? » ou « Le raisonnement est-il logiquement cohérent ? »). RLME traite la probabilité d'un jugement positif par l'évaluateur comme une récompense et met à jour le générateur via une optimisation de politique relative au groupe, permettant un apprentissage sans étiquettes. À travers une série d'expériences, nous montrons que RLME atteint une précision et une efficacité d'échantillonnage comparables à un entraînement basé sur des étiquettes, permet des compromis contrôlables entre plusieurs objectifs, oriente les modèles vers des schémas de raisonnement fiables plutôt que vers une rationalisation a posteriori, et généralise à des contextes en domaine ouvert où les étiquettes de vérité terrain sont indisponibles, élargissant ainsi les domaines dans lesquels les LLM peuvent être entraînés avec du RL.
English
Most reinforcement learning (RL) methods for training large language models (LLMs) require ground-truth labels or task-specific verifiers, limiting scalability when correctness is ambiguous or expensive to obtain. We introduce Reinforcement Learning from Meta-Evaluation (RLME), which optimizes a generator using reward derived from an evaluator's answers to natural-language meta-questions (e.g., "Is the answer correct?" or "Is the reasoning logically consistent?"). RLME treats the evaluator's probability of a positive judgment as a reward and updates the generator via group-relative policy optimization, enabling learning without labels. Across a suite of experiments, we show that RLME achieves accuracy and sample efficiency comparable to label-based training, enables controllable trade-offs among multiple objectives, steers models toward reliable reasoning patterns rather than post-hoc rationalization, and generalizes to open-domain settings where ground-truth labels are unavailable, broadening the domains in which LLMs may be trained with RL.