Referencias para Mejorar la Alineación de Modelos de Lenguaje Grandes en Dominios No Verificables
References Improve LLM Alignment in Non-Verifiable Domains
February 18, 2026
Autores: Kejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri, Shafiq Joty, Arman Cohan
cs.AI
Resumen
Si bien el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha demostrado una gran eficacia en tareas de razonamiento, no puede aplicarse directamente a dominios no verificables que carecen de verificadores de referencia, como la alineación de LLM. En este trabajo, investigamos si los evaluadores basados en LLM guiados por referencias pueden cerrar esta brecha actuando como "verificadores" blandos. Primero, diseñamos protocolos de evaluación que mejoran a los evaluadores basados en LLM para la alineación de LLM utilizando salidas de referencia. Mediante experimentos exhaustivos, mostramos que un enfoque guiado por referencias mejora sustancialmente la precisión de jueces-LLM menos capaces utilizando referencias de modelos de vanguardia; los jueces-LLM más potentes también pueden mejorarse con referencias de alta calidad (es decir, escritas por humanos). Basándonos en estos jueces mejorados, demostramos la utilidad de las referencias de alta calidad en el ajuste de alineación, donde los LLM guiados con referencias se utilizan como jueces para la auto-mejora. Mostramos que la auto-mejora guiada por referencias produce ganancias claras sobre la SFT directa en salidas de referencia y sobre la auto-mejora con jueces que no usan referencias, logrando un rendimiento comparable al entrenamiento con ArmoRM, un modelo de recompensa ajustado potente. Específicamente, nuestro método alcanza el 73.1% y 58.7% en AlpacaEval y Arena-Hard con Llama-3-8B-Instruct, y 70.0% y 74.1% con Qwen2.5-7B, lo que corresponde a ganancias absolutas promedio de +20.2 / +17.1 puntos sobre la destilación SFT y +5.3 / +3.6 puntos sobre la auto-mejora sin referencias en AlpacaEval / Arena-Hard. Estos resultados destacan el potencial de utilizar evaluadores-LLM guiados por referencias para permitir un post-entrenamiento efectivo de LLM en dominios no verificables.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has shown strong effectiveness in reasoning tasks, it cannot be directly applied to non-verifiable domains lacking ground-truth verifiers, such as LLM alignment. In this work, we investigate whether reference-guided LLM-evaluators can bridge this gap by serving as soft "verifiers". First, we design evaluation protocols that enhance LLM-based evaluators for LLM alignment using reference outputs. Through comprehensive experiments, we show that a reference-guided approach substantially improves the accuracy of less capable LLM-judges using references from frontier models; stronger LLM-judges can also be enhanced by high-quality (i.e., human-written) references. Building on these improved judges, we demonstrate the utility of high-quality references in alignment tuning, where LLMs guided with references are used as judges to self-improve. We show that reference-guided self-improvement yields clear gains over both direct SFT on reference outputs and self-improvement with reference-free judges, achieving performance comparable to training with ArmoRM, a strong finetuned reward model. Specifically, our method achieves 73.1% and 58.7% on AlpacaEval and Arena-Hard with Llama-3-8B-Instruct, and 70.0% and 74.1% with Qwen2.5-7B, corresponding to average absolute gains of +20.2 / +17.1 points over SFT distillation and +5.3 / +3.6 points over reference-free self-improvement on AlpacaEval / Arena-Hard. These results highlight the potential of using reference-guided LLM-evaluators to enable effective LLM post-training in non-verifiable domains.