ChatPaper.aiChatPaper

Referenties Verbeteren de Afstemming van LLM's in Niet-Verifieerbare Domeinen

References Improve LLM Alignment in Non-Verifiable Domains

February 18, 2026
Auteurs: Kejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri, Shafiq Joty, Arman Cohan
cs.AI

Samenvatting

Hoewel Reinforcement Learning met Verifieerbare Beloningen (RLVR) sterke effectiviteit heeft getoond bij redeneertaken, kan het niet direct worden toegepast op niet-verifieerbare domeinen die grondwaarheid-verifiers missen, zoals LLM-afstemming. In dit werk onderzoeken we of referentie-gestuurde LLM-evaluatoren deze kloof kunnen overbruggen door te dienen als zachte "verifiers". Ten eerste ontwerpen we evaluatieprotocollen die LLM-gebaseerde evaluatoren voor LLM-afstemming verbeteren met behulp van referentie-uitvoer. Door middel van uitgebreide experimenten tonen we aan dat een referentie-gestuurde aanpak de nauwkeurigheid van minder capabele LLM-beoordelaars aanzienlijk verbetert door gebruik te maken van referenties van frontier-modellen; sterkere LLM-beoordelaars kunnen eveneens worden verbeterd door hoogwaardige (d.w.z. door mensen geschreven) referenties. Voortbouwend op deze verbeterde beoordelaars, demonstreren we het nut van hoogwaardige referenties bij afstemming-tuning, waarbij LLM's die met referenties worden gestuurd, worden gebruikt als beoordelaars om zichzelf te verbeteren. We laten zien dat referentie-gestuurde zelfverbetering duidelijke winst oplevert ten opzichte van zowel directe SFT op referentie-uitvoer als zelfverbetering met referentievrije beoordelaars, en prestaties bereikt die vergelijkbaar zijn met training met ArmoRM, een sterk afgestemd beloningsmodel. Concreet behaalt onze methode 73,1% en 58,7% op respectievelijk AlpacaEval en Arena-Hard met Llama-3-8B-Instruct, en 70,0% en 74,1% met Qwen2.5-7B, wat overeenkomt met gemiddelde absolute winsten van +20,2 / +17,1 punten ten opzichte van SFT-distillatie en +5,3 / +3,6 punten ten opzichte van referentievrije zelfverbetering op AlpacaEval / Arena-Hard. Deze resultaten onderstrepen het potentieel van het gebruik van referentie-gestuurde LLM-evaluatoren om effectieve LLM-natraining mogelijk te maken in niet-verifieerbare domeinen.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has shown strong effectiveness in reasoning tasks, it cannot be directly applied to non-verifiable domains lacking ground-truth verifiers, such as LLM alignment. In this work, we investigate whether reference-guided LLM-evaluators can bridge this gap by serving as soft "verifiers". First, we design evaluation protocols that enhance LLM-based evaluators for LLM alignment using reference outputs. Through comprehensive experiments, we show that a reference-guided approach substantially improves the accuracy of less capable LLM-judges using references from frontier models; stronger LLM-judges can also be enhanced by high-quality (i.e., human-written) references. Building on these improved judges, we demonstrate the utility of high-quality references in alignment tuning, where LLMs guided with references are used as judges to self-improve. We show that reference-guided self-improvement yields clear gains over both direct SFT on reference outputs and self-improvement with reference-free judges, achieving performance comparable to training with ArmoRM, a strong finetuned reward model. Specifically, our method achieves 73.1% and 58.7% on AlpacaEval and Arena-Hard with Llama-3-8B-Instruct, and 70.0% and 74.1% with Qwen2.5-7B, corresponding to average absolute gains of +20.2 / +17.1 points over SFT distillation and +5.3 / +3.6 points over reference-free self-improvement on AlpacaEval / Arena-Hard. These results highlight the potential of using reference-guided LLM-evaluators to enable effective LLM post-training in non-verifiable domains.
PDF01February 21, 2026