Références Améliorer l'alignement des LLM dans les domaines non vérifiables
References Improve LLM Alignment in Non-Verifiable Domains
February 18, 2026
papers.authors: Kejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri, Shafiq Joty, Arman Cohan
cs.AI
papers.abstract
Bien que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) ait démontré une forte efficacité dans les tâches de raisonnement, il ne peut être directement appliqué à des domaines non vérifiables dépourvus de vérificateurs de vérité terrain, tels que l'alignement des LLM. Dans ce travail, nous étudions si des évaluateurs basés sur des LLM et guidés par des références peuvent combler cette lacune en servant de "vérificateurs" souples. Premièrement, nous concevons des protocoles d'évaluation qui améliorent les évaluateurs basés sur des LLM pour l'alignement en utilisant des sorties de référence. Par des expériences approfondies, nous montrons qu'une approche guidée par référence améliore substantiellement la précision des juges-LLM moins performants en utilisant des références de modèles frontaliers ; les juges-LLM plus forts peuvent également être améliorés par des références de haute qualité (c'est-à-dire écrites par des humains). En nous appuyant sur ces juges améliorés, nous démontrons l'utilité de références de haute qualité dans le réglage pour l'alignement, où des LLM guidés par des références sont utilisés comme juges pour s'auto-améliorer. Nous montrons que l'auto-amélioration guidée par référence produit des gains nets par rapport à un SFT direct sur des sorties de référence et à l'auto-amélioration avec des juges sans référence, atteignant des performances comparables à l'entraînement avec ArmoRM, un modèle de récompense affiné performant. Concrètement, notre méthode atteint 73,1 % et 58,7 % sur AlpacaEval et Arena-Hard avec Llama-3-8B-Instruct, et 70,0 % et 74,1 % avec Qwen2.5-7B, ce qui correspond à des gains absolus moyens de +20,2 / +17,1 points par rapport à la distillation par SFT et de +5,3 / +3,6 points par rapport à l'auto-amélioration sans référence sur AlpacaEval / Arena-Hard. Ces résultats soulignent le potentiel de l'utilisation d'évaluateurs-LLM guidés par des références pour permettre un post-entraînement efficace des LLM dans des domaines non vérifiables.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has shown strong effectiveness in reasoning tasks, it cannot be directly applied to non-verifiable domains lacking ground-truth verifiers, such as LLM alignment. In this work, we investigate whether reference-guided LLM-evaluators can bridge this gap by serving as soft "verifiers". First, we design evaluation protocols that enhance LLM-based evaluators for LLM alignment using reference outputs. Through comprehensive experiments, we show that a reference-guided approach substantially improves the accuracy of less capable LLM-judges using references from frontier models; stronger LLM-judges can also be enhanced by high-quality (i.e., human-written) references. Building on these improved judges, we demonstrate the utility of high-quality references in alignment tuning, where LLMs guided with references are used as judges to self-improve. We show that reference-guided self-improvement yields clear gains over both direct SFT on reference outputs and self-improvement with reference-free judges, achieving performance comparable to training with ArmoRM, a strong finetuned reward model. Specifically, our method achieves 73.1% and 58.7% on AlpacaEval and Arena-Hard with Llama-3-8B-Instruct, and 70.0% and 74.1% with Qwen2.5-7B, corresponding to average absolute gains of +20.2 / +17.1 points over SFT distillation and +5.3 / +3.6 points over reference-free self-improvement on AlpacaEval / Arena-Hard. These results highlight the potential of using reference-guided LLM-evaluators to enable effective LLM post-training in non-verifiable domains.