Verstärkendes Lernen durch Meta-Evaluation: Ausrichtung von Sprachmodellen ohne Ground-Truth-Labels
Reinforcement Learning from Meta-Evaluation: Aligning Language Models Without Ground-Truth Labels
January 29, 2026
papers.authors: Micah Rentschler, Jesse Roberts
cs.AI
papers.abstract
Die meisten Methoden des Reinforcement Learning (RL) für das Training großer Sprachmodelle (LLMs) erfordern Ground-Truth-Labels oder aufgabenspezifische Verifizierer, was die Skalierbarkeit einschränkt, wenn die Korrektheit mehrdeutig oder teuer zu ermitteln ist. Wir führen Reinforcement Learning from Meta-Evaluation (RLME) ein, das einen Generator optimiert, indem es Belohnungen verwendet, die aus den Antworten eines Evaluators auf natürlichsprachliche Meta-Fragen abgeleitet werden (z. B. "Ist die Antwort korrekt?" oder "Ist die Schlussfolgerung logisch konsistent?"). RLME behandelt die Wahrscheinlichkeit einer positiven Bewertung durch den Evaluator als Belohnung und aktualisiert den Generator mittels gruppenrelativer Politikoptimierung, wodurch Lernen ohne Labels ermöglicht wird. In einer Reihe von Experimenten zeigen wir, dass RLME eine mit labelbasiertem Training vergleichbare Genauigkeit und Stichprobeneffizienz erreicht, kontrollierbare Kompromisse zwischen mehreren Zielen ermöglicht, Modelle hin zu zuverlässigen Denkmustern anstatt zu nachträglicher Rationalisierung lenkt und auf Open-Domain-Szenarien verallgemeinert, in denen Ground-Truth-Labels nicht verfügbar sind. Dadurch erweitert RLME die Domänen, in denen LLMs mit RL trainiert werden können.
English
Most reinforcement learning (RL) methods for training large language models (LLMs) require ground-truth labels or task-specific verifiers, limiting scalability when correctness is ambiguous or expensive to obtain. We introduce Reinforcement Learning from Meta-Evaluation (RLME), which optimizes a generator using reward derived from an evaluator's answers to natural-language meta-questions (e.g., "Is the answer correct?" or "Is the reasoning logically consistent?"). RLME treats the evaluator's probability of a positive judgment as a reward and updates the generator via group-relative policy optimization, enabling learning without labels. Across a suite of experiments, we show that RLME achieves accuracy and sample efficiency comparable to label-based training, enables controllable trade-offs among multiple objectives, steers models toward reliable reasoning patterns rather than post-hoc rationalization, and generalizes to open-domain settings where ground-truth labels are unavailable, broadening the domains in which LLMs may be trained with RL.