Referenties Verbeteren de Afstemming van LLM's in Niet-Verifieerbare Domeinen

Samenvatting

Hoewel Reinforcement Learning met Verifieerbare Beloningen (RLVR) sterke effectiviteit heeft getoond bij redeneertaken, kan het niet direct worden toegepast op niet-verifieerbare domeinen die grondwaarheid-verifiers missen, zoals LLM-afstemming. In dit werk onderzoeken we of referentie-gestuurde LLM-evaluatoren deze kloof kunnen overbruggen door te dienen als zachte "verifiers". Ten eerste ontwerpen we evaluatieprotocollen die LLM-gebaseerde evaluatoren voor LLM-afstemming verbeteren met behulp van referentie-uitvoer. Door middel van uitgebreide experimenten tonen we aan dat een referentie-gestuurde aanpak de nauwkeurigheid van minder capabele LLM-beoordelaars aanzienlijk verbetert door gebruik te maken van referenties van frontier-modellen; sterkere LLM-beoordelaars kunnen eveneens worden verbeterd door hoogwaardige (d.w.z. door mensen geschreven) referenties. Voortbouwend op deze verbeterde beoordelaars, demonstreren we het nut van hoogwaardige referenties bij afstemming-tuning, waarbij LLM's die met referenties worden gestuurd, worden gebruikt als beoordelaars om zichzelf te verbeteren. We laten zien dat referentie-gestuurde zelfverbetering duidelijke winst oplevert ten opzichte van zowel directe SFT op referentie-uitvoer als zelfverbetering met referentievrije beoordelaars, en prestaties bereikt die vergelijkbaar zijn met training met ArmoRM, een sterk afgestemd beloningsmodel. Concreet behaalt onze methode 73,1% en 58,7% op respectievelijk AlpacaEval en Arena-Hard met Llama-3-8B-Instruct, en 70,0% en 74,1% met Qwen2.5-7B, wat overeenkomt met gemiddelde absolute winsten van +20,2 / +17,1 punten ten opzichte van SFT-distillatie en +5,3 / +3,6 punten ten opzichte van referentievrije zelfverbetering op AlpacaEval / Arena-Hard. Deze resultaten onderstrepen het potentieel van het gebruik van referentie-gestuurde LLM-evaluatoren om effectieve LLM-natraining mogelijk te maken in niet-verifieerbare domeinen.

English

While Reinforcement Learning with Verifiable Rewards (RLVR) has shown strong effectiveness in reasoning tasks, it cannot be directly applied to non-verifiable domains lacking ground-truth verifiers, such as LLM alignment. In this work, we investigate whether reference-guided LLM-evaluators can bridge this gap by serving as soft "verifiers". First, we design evaluation protocols that enhance LLM-based evaluators for LLM alignment using reference outputs. Through comprehensive experiments, we show that a reference-guided approach substantially improves the accuracy of less capable LLM-judges using references from frontier models; stronger LLM-judges can also be enhanced by high-quality (i.e., human-written) references. Building on these improved judges, we demonstrate the utility of high-quality references in alignment tuning, where LLMs guided with references are used as judges to self-improve. We show that reference-guided self-improvement yields clear gains over both direct SFT on reference outputs and self-improvement with reference-free judges, achieving performance comparable to training with ArmoRM, a strong finetuned reward model. Specifically, our method achieves 73.1% and 58.7% on AlpacaEval and Arena-Hard with Llama-3-8B-Instruct, and 70.0% and 74.1% with Qwen2.5-7B, corresponding to average absolute gains of +20.2 / +17.1 points over SFT distillation and +5.3 / +3.6 points over reference-free self-improvement on AlpacaEval / Arena-Hard. These results highlight the potential of using reference-guided LLM-evaluators to enable effective LLM post-training in non-verifiable domains.

Referenties Verbeteren de Afstemming van LLM's in Niet-Verifieerbare Domeinen

References Improve LLM Alignment in Non-Verifiable Domains

Samenvatting

Support