Referências para Melhorar o Alinhamento de LLM em Domínios Não Verificáveis

Resumo

Embora o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tenha demonstrado alta eficácia em tarefas de raciocínio, ele não pode ser aplicado diretamente a domínios não verificáveis que carecem de verificadores de verdade fundamental, como o alinhamento de LLMs. Neste trabalho, investigamos se avaliadores baseados em LLMs guiados por referências podem preencher essa lacuna atuando como "verificadores" suaves. Primeiro, projetamos protocolos de avaliação que aprimoram avaliadores baseados em LLM para alinhamento de LLM usando saídas de referência. Por meio de experimentos abrangentes, mostramos que uma abordagem guiada por referência melhora substancialmente a precisão de juízes LLM menos capazes utilizando referências de modelos de fronteira; juízes LLM mais fortes também podem ser aprimorados por referências de alta qualidade (ou seja, escritas por humanos). Com base nesses juízes aprimorados, demonstramos a utilidade de referências de alta qualidade no ajuste de alinhamento, onde LLMs guiados com referências são usados como juízes para autoaprimoramento. Mostramos que o autoaprimoramento guiado por referência produz ganhos claros em relação tanto à SFT direta em saídas de referência quanto ao autoaprimoramento com juízes livres de referência, alcançando desempenho comparável ao treinamento com ArmoRM, um forte modelo de recompensa afinado. Especificamente, nosso método atinge 73,1% e 58,7% no AlpacaEval e Arena-Hard com Llama-3-8B-Instruct, e 70,0% e 74,1% com Qwen2.5-7B, correspondendo a ganhos absolutos médios de +20,2 / +17,1 pontos sobre a destilação SFT e +5,3 / +3,6 pontos sobre o autoaprimoramento sem referência no AlpacaEval / Arena-Hard. Esses resultados destacam o potencial do uso de avaliadores LLM guiados por referência para permitir um pós-treinamento eficaz de LLMs em domínios não verificáveis.

English

While Reinforcement Learning with Verifiable Rewards (RLVR) has shown strong effectiveness in reasoning tasks, it cannot be directly applied to non-verifiable domains lacking ground-truth verifiers, such as LLM alignment. In this work, we investigate whether reference-guided LLM-evaluators can bridge this gap by serving as soft "verifiers". First, we design evaluation protocols that enhance LLM-based evaluators for LLM alignment using reference outputs. Through comprehensive experiments, we show that a reference-guided approach substantially improves the accuracy of less capable LLM-judges using references from frontier models; stronger LLM-judges can also be enhanced by high-quality (i.e., human-written) references. Building on these improved judges, we demonstrate the utility of high-quality references in alignment tuning, where LLMs guided with references are used as judges to self-improve. We show that reference-guided self-improvement yields clear gains over both direct SFT on reference outputs and self-improvement with reference-free judges, achieving performance comparable to training with ArmoRM, a strong finetuned reward model. Specifically, our method achieves 73.1% and 58.7% on AlpacaEval and Arena-Hard with Llama-3-8B-Instruct, and 70.0% and 74.1% with Qwen2.5-7B, corresponding to average absolute gains of +20.2 / +17.1 points over SFT distillation and +5.3 / +3.6 points over reference-free self-improvement on AlpacaEval / Arena-Hard. These results highlight the potential of using reference-guided LLM-evaluators to enable effective LLM post-training in non-verifiable domains.

Referências para Melhorar o Alinhamento de LLM em Domínios Não Verificáveis

References Improve LLM Alignment in Non-Verifiable Domains

Resumo

Support