ChatPaper.aiChatPaper

검증 불가능 영역에서 LLM 정렬 개선을 위한 참고 문헌

References Improve LLM Alignment in Non-Verifiable Domains

February 18, 2026
저자: Kejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri, Shafiq Joty, Arman Cohan
cs.AI

초록

검증 가능한 보상 강화학습(RLVR)은 추론 과제에서 강력한 효과를 입증했지만, LLM 정렬과 같이 정답 검증기가 존재하지 않는 비검증 가능 영역에 직접 적용할 수는 없습니다. 본 연구에서는 참조 출력을 활용하는 LLM 평가자가 소프트 '검증자' 역할을 수행함으로써 이러한 격차를 해소할 수 있는지 탐구합니다. 먼저, 참조 출력을 활용해 LLM 정렬을 위한 LLM 기반 평가자의 성능을 향상시키는 평가 프로토콜을 설계합니다. 포괄적인 실험을 통해, 최신 프론티어 모델의 참조 출력을 활용하면 성능이 낮은 LLM 평가자의 정확도가 크게 개선됨을 확인했습니다. 또한 고품질(인간이 작성한) 참조 출력은 강력한 LLM 평가자의 성능 향상에도 기여합니다. 이러한 개선된 평가자를 바탕으로, 참조 출력을 활용한 LLM 평가자가 자기 개선을 위한 판단 기준으로 사용되는 정렬 튜닝 과정에서 고품질 참조 출력의 유용성을 입증합니다. 참조 출력을 활용한 자기 개선 방식은 참조 출력에 대한 직접적인 SFT(지도 미세 조정)와 참조 출력 없이 평가자를 활용한 자기 개선 방식보다 모두 우수한 성능을 보이며, 강력한 미세 조정된 보상 모델인 ArmoRM을 활용한 학습 결과에 버금가는 성능을 달성했습니다. 구체적으로, Llama-3-8B-Instruct 모델을 사용한 우리 방법은 AlpacaEval과 Arena-Hard에서 각각 73.1%, 58.7%의 성능을, Qwen2.5-7B 모델을 사용했을 때는 각각 70.0%, 74.1%의 성능을 기록했습니다. 이는 AlpacaEval/Arena-Hard 기준 SFT蒸馏 대비 평균 절대增益 +20.2/+17.1점, 참조 출력 없는 자기 개선 방식 대비 +5.3/+3.6점에 해당하는 향상입니다. 이러한 결과는 참조 출력 기반 LLM 평가자를 활용하여 비검증 가능 영역에서도 효과적인 LLM 사후 훈련을 가능하게 할 잠재력을 시사합니다.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has shown strong effectiveness in reasoning tasks, it cannot be directly applied to non-verifiable domains lacking ground-truth verifiers, such as LLM alignment. In this work, we investigate whether reference-guided LLM-evaluators can bridge this gap by serving as soft "verifiers". First, we design evaluation protocols that enhance LLM-based evaluators for LLM alignment using reference outputs. Through comprehensive experiments, we show that a reference-guided approach substantially improves the accuracy of less capable LLM-judges using references from frontier models; stronger LLM-judges can also be enhanced by high-quality (i.e., human-written) references. Building on these improved judges, we demonstrate the utility of high-quality references in alignment tuning, where LLMs guided with references are used as judges to self-improve. We show that reference-guided self-improvement yields clear gains over both direct SFT on reference outputs and self-improvement with reference-free judges, achieving performance comparable to training with ArmoRM, a strong finetuned reward model. Specifically, our method achieves 73.1% and 58.7% on AlpacaEval and Arena-Hard with Llama-3-8B-Instruct, and 70.0% and 74.1% with Qwen2.5-7B, corresponding to average absolute gains of +20.2 / +17.1 points over SFT distillation and +5.3 / +3.6 points over reference-free self-improvement on AlpacaEval / Arena-Hard. These results highlight the potential of using reference-guided LLM-evaluators to enable effective LLM post-training in non-verifiable domains.
PDF01February 21, 2026