ChatPaper.aiChatPaper

Literaturverzeichnis verbessert die Ausrichtung von LLMs in nicht verifizierbaren Domänen

References Improve LLM Alignment in Non-Verifiable Domains

February 18, 2026
papers.authors: Kejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri, Shafiq Joty, Arman Cohan
cs.AI

papers.abstract

Während Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) bei Reasoning-Aufgaben eine hohe Wirksamkeit gezeigt hat, kann es nicht direkt auf nicht-verifizierbare Domänen ohne Ground-Truth-Verifizierer angewendet werden, wie beispielsweise die Alignment-Optimierung von LLMs. In dieser Arbeit untersuchen wir, ob referenzgestützte LLM-Evaluatoren diese Lücke schließen können, indem sie als weiche „Verifizierer“ fungieren. Zunächst entwerfen wir Evaluierungsprotokolle, die LLM-basierte Evaluatoren für das LLM-Alignment mithilfe von Referenzausgaben verbessern. Durch umfassende Experimente zeigen wir, dass ein referenzgestützter Ansatz die Genauigkeit weniger leistungsfähiger LLM-Judges erheblich verbessert, wenn Referenzen von Frontier-Modellen verwendet werden; auch stärkere LLM-Judges können durch hochwertige (d.h. menschlich verfasste) Referenzen verbessert werden. Aufbauend auf diesen verbesserten Judges demonstrieren wir den Nutzen hochwertiger Referenzen beim Alignment-Tuning, bei dem LLMs, die mit Referenzen geführt werden, als Judges zur Selbstverbesserung eingesetzt werden. Wir zeigen, dass die referenzgestützte Selbstverbesserung klare Gewinne gegenüber direktem SFT auf Referenzausgaben und einer Selbstverbesserung mit referenzfreien Judges erzielt und eine Leistung erreicht, die mit dem Training mit ArmoRM, einem starken feinjustierten Belohnungsmodell, vergleichbar ist. Konkret erzielt unsere Methode 73,1 % und 58,7 % auf AlpacaEval und Arena-Hard mit Llama-3-8B-Instruct sowie 70,0 % und 74,1 % mit Qwen2.5-7B, was durchschnittlichen absoluten Steigerungen von +20,2 / +17,1 Punkten gegenüber SFT-Distillation und +5,3 / +3,6 Punkten gegenüber referenzfreier Selbstverbesserung auf AlpacaEval / Arena-Hard entspricht. Diese Ergebnisse unterstreichen das Potenzial von referenzgestützten LLM-Evaluatoren, um ein effektives Post-Training von LLMs in nicht-verifizierbaren Domänen zu ermöglichen.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has shown strong effectiveness in reasoning tasks, it cannot be directly applied to non-verifiable domains lacking ground-truth verifiers, such as LLM alignment. In this work, we investigate whether reference-guided LLM-evaluators can bridge this gap by serving as soft "verifiers". First, we design evaluation protocols that enhance LLM-based evaluators for LLM alignment using reference outputs. Through comprehensive experiments, we show that a reference-guided approach substantially improves the accuracy of less capable LLM-judges using references from frontier models; stronger LLM-judges can also be enhanced by high-quality (i.e., human-written) references. Building on these improved judges, we demonstrate the utility of high-quality references in alignment tuning, where LLMs guided with references are used as judges to self-improve. We show that reference-guided self-improvement yields clear gains over both direct SFT on reference outputs and self-improvement with reference-free judges, achieving performance comparable to training with ArmoRM, a strong finetuned reward model. Specifically, our method achieves 73.1% and 58.7% on AlpacaEval and Arena-Hard with Llama-3-8B-Instruct, and 70.0% and 74.1% with Qwen2.5-7B, corresponding to average absolute gains of +20.2 / +17.1 points over SFT distillation and +5.3 / +3.6 points over reference-free self-improvement on AlpacaEval / Arena-Hard. These results highlight the potential of using reference-guided LLM-evaluators to enable effective LLM post-training in non-verifiable domains.
PDF01February 21, 2026