ChatPaper.aiChatPaper

検証不可能な領域における大規模言語モデルのアイラインメント改善に関する参考文献

References Improve LLM Alignment in Non-Verifiable Domains

February 18, 2026
著者: Kejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri, Shafiq Joty, Arman Cohan
cs.AI

要旨

検証可能な報酬を用いた強化学習(RLVR)は推論タスクで高い有効性を示すが、正解検証器を欠く非検証可能領域(例えばLLMアライメント)には直接適用できない。本研究では、参照情報を活用したLLM評価器がソフトな「検証器」としてこの隔たりを埋められるかを検証する。まず、参照出力を活用してLLMアライメント向けLLM評価器を強化する評価プロトコルを設計する。包括的実験を通じ、性能低位のLLM評価者は先進モデル由来の参照により精度が大幅に向上すること、高性能なLLM評価者も高品質(人間作成)の参照でさらに改善されることを示す。これらの改良された評価器を基盤に、参照付きLLMを評価器として自己改善を行うアライメント調整における高品質参照の有用性を実証する。参照誘導型自己改善は、参照出力への直接SFTや参照なし評価器を用いた自己改善を明確に上回り、強力なファインチューン報酬モデルArmoRMを用いた訓練に匹敵する性能を達成した。具体的には、Llama-3-8B-InstructでAlpacaEval 73.1%、Arena-Hard 58.7%、Qwen2.5-7Bで70.0%、74.1%を達成し、AlpacaEval/Arena-HardにおいてSFT蒸留比で平均+20.2/+17.1ポイント、参照なし自己改善比で+5.3/+3.6ポイントの絶対改善を示した。これらの結果は、非検証可能領域における効果的なLLM事後学習を実現する参照誘導型LLM評価器の可能性を浮き彫りにする。
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has shown strong effectiveness in reasoning tasks, it cannot be directly applied to non-verifiable domains lacking ground-truth verifiers, such as LLM alignment. In this work, we investigate whether reference-guided LLM-evaluators can bridge this gap by serving as soft "verifiers". First, we design evaluation protocols that enhance LLM-based evaluators for LLM alignment using reference outputs. Through comprehensive experiments, we show that a reference-guided approach substantially improves the accuracy of less capable LLM-judges using references from frontier models; stronger LLM-judges can also be enhanced by high-quality (i.e., human-written) references. Building on these improved judges, we demonstrate the utility of high-quality references in alignment tuning, where LLMs guided with references are used as judges to self-improve. We show that reference-guided self-improvement yields clear gains over both direct SFT on reference outputs and self-improvement with reference-free judges, achieving performance comparable to training with ArmoRM, a strong finetuned reward model. Specifically, our method achieves 73.1% and 58.7% on AlpacaEval and Arena-Hard with Llama-3-8B-Instruct, and 70.0% and 74.1% with Qwen2.5-7B, corresponding to average absolute gains of +20.2 / +17.1 points over SFT distillation and +5.3 / +3.6 points over reference-free self-improvement on AlpacaEval / Arena-Hard. These results highlight the potential of using reference-guided LLM-evaluators to enable effective LLM post-training in non-verifiable domains.
PDF01February 21, 2026