Migliorare l'Allineamento dei LLM in Domini Non Verificabili tramite Riferimenti

Abstract

Sebbene il Reinforcement Learning con Ricompense Verificabili (RLVR) abbia dimostrato una forte efficacia nei compiti di ragionamento, non può essere applicato direttamente a domini non verificabili privi di verificatori ground-truth, come l'allineamento degli LLM. In questo lavoro, indaghiamo se i valutatori basati su LLM e guidati da riferimenti possano colmare questa lacuna fungendo da "verificatori" soft. In primo luogo, progettiamo protocolli di valutazione che migliorano i valutatori basati su LLM per l'allineamento utilizzando output di riferimento. Attraverso esperimenti approfonditi, mostriamo che un approccio guidato da riferimenti migliora sostanzialmente l'accuratezza di giudici-LLM meno capaci utilizzando riferimenti da modelli all'avanguardia; anche giudici-LLM più potenti possono essere potenziati da riferimenti di alta qualità (ad esempio, scritti da umani). Basandoci su questi giudici migliorati, dimostriamo l'utilità di riferimenti di alta qualità nella messa a punto per l'allineamento, dove LLM guidati da riferimenti vengono utilizzati come giudici per l'auto-miglioramento. Mostriamo che l'auto-miglioramento guidato da riferimenti produce guadagni netti rispetto sia alla SFT diretta sugli output di riferimento che all'auto-miglioramento con giudici senza riferimento, raggiungendo prestazioni paragonabili all'addestramento con ArmoRM, un forte modello di ricompensa fine-tunato. Nello specifico, il nostro metodo raggiunge il 73,1% e il 58,7% su AlpacaEval e Arena-Hard con Llama-3-8B-Instruct, e il 70,0% e il 74,1% con Qwen2.5-7B, corrispondenti a guadagni assoluti medi di +20,2 / +17,1 punti rispetto alla distillazione SFT e di +5,3 / +3,6 punti rispetto all'auto-miglioramento senza riferimento su AlpacaEval / Arena-Hard. Questi risultati evidenziano il potenziale dell'uso di valutatori-LLM guidati da riferimenti per abilitare un efficace post-training degli LLM in domini non verificabili.

English

While Reinforcement Learning with Verifiable Rewards (RLVR) has shown strong effectiveness in reasoning tasks, it cannot be directly applied to non-verifiable domains lacking ground-truth verifiers, such as LLM alignment. In this work, we investigate whether reference-guided LLM-evaluators can bridge this gap by serving as soft "verifiers". First, we design evaluation protocols that enhance LLM-based evaluators for LLM alignment using reference outputs. Through comprehensive experiments, we show that a reference-guided approach substantially improves the accuracy of less capable LLM-judges using references from frontier models; stronger LLM-judges can also be enhanced by high-quality (i.e., human-written) references. Building on these improved judges, we demonstrate the utility of high-quality references in alignment tuning, where LLMs guided with references are used as judges to self-improve. We show that reference-guided self-improvement yields clear gains over both direct SFT on reference outputs and self-improvement with reference-free judges, achieving performance comparable to training with ArmoRM, a strong finetuned reward model. Specifically, our method achieves 73.1% and 58.7% on AlpacaEval and Arena-Hard with Llama-3-8B-Instruct, and 70.0% and 74.1% with Qwen2.5-7B, corresponding to average absolute gains of +20.2 / +17.1 points over SFT distillation and +5.3 / +3.6 points over reference-free self-improvement on AlpacaEval / Arena-Hard. These results highlight the potential of using reference-guided LLM-evaluators to enable effective LLM post-training in non-verifiable domains.

Migliorare l'Allineamento dei LLM in Domini Non Verificabili tramite Riferimenti

References Improve LLM Alignment in Non-Verifiable Domains

Abstract

Support