ChatPaper.aiChatPaper

Улучшение согласованности больших языковых моделей в неверифицируемых областях

References Improve LLM Alignment in Non-Verifiable Domains

February 18, 2026
Авторы: Kejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri, Shafiq Joty, Arman Cohan
cs.AI

Аннотация

Хотя обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) продемонстрировало высокую эффективность в задачах логического вывода, его нельзя напрямую применять в неверифицируемых областях, где отсутствуют эталонные верификаторы, таких как согласование больших языковых моделей (LLM). В данной работе мы исследуем, могут ли LLM-оценщики, управляемые референсными данными, заполнить этот пробел, выступая в роли мягких «верификаторов». Во-первых, мы разрабатываем протоколы оценки, которые улучшают LLM-оценщиков для согласования LLM с использованием эталонных выходных данных. В ходе всесторонних экспериментов мы показываем, что подход с использованием референсных данных существенно повышает точность менее мощных LLM-судей при использовании эталонов от передовых моделей; более сильные LLM-судьи также могут быть улучшены за счет высококачественных (т.е. созданных человеком) референсов. Опираясь на этих улучшенных судей, мы демонстрируем полезность высококачественных референсов в тонкой настройке согласования, где LLM, управляемые референсными данными, используются в качестве судей для самосовершенствования. Мы показываем, что самоулучшение с управлением от референсов дает явный выигрыш по сравнению как с прямым SFT на эталонных выходах, так и с самоулучшением с использованием судей, не зависящих от референсов, достигая производительности, сопоставимой с обучением с помощью ArmoRM — мощной дообученной модели вознаграждения. В частности, наш метод достигает 73,1% и 58,7% на AlpacaEval и Arena-Hard с моделью Llama-3-8B-Instruct и 70,0% и 74,1% с моделью Qwen2.5-7B, что соответствует среднему абсолютному приросту на +20,2 / +17,1 пункта по сравнению с SFT-дистилляцией и на +5,3 / +3,6 пункта по сравнению с самоулучшением без референсов на AlpacaEval / Arena-Hard. Эти результаты подчеркивают потенциал использования LLM-оценщиков, управляемых референсными данными, для обеспечения эффективного пост-тренинга LLM в неверифицируемых областях.
English
While Reinforcement Learning with Verifiable Rewards (RLVR) has shown strong effectiveness in reasoning tasks, it cannot be directly applied to non-verifiable domains lacking ground-truth verifiers, such as LLM alignment. In this work, we investigate whether reference-guided LLM-evaluators can bridge this gap by serving as soft "verifiers". First, we design evaluation protocols that enhance LLM-based evaluators for LLM alignment using reference outputs. Through comprehensive experiments, we show that a reference-guided approach substantially improves the accuracy of less capable LLM-judges using references from frontier models; stronger LLM-judges can also be enhanced by high-quality (i.e., human-written) references. Building on these improved judges, we demonstrate the utility of high-quality references in alignment tuning, where LLMs guided with references are used as judges to self-improve. We show that reference-guided self-improvement yields clear gains over both direct SFT on reference outputs and self-improvement with reference-free judges, achieving performance comparable to training with ArmoRM, a strong finetuned reward model. Specifically, our method achieves 73.1% and 58.7% on AlpacaEval and Arena-Hard with Llama-3-8B-Instruct, and 70.0% and 74.1% with Qwen2.5-7B, corresponding to average absolute gains of +20.2 / +17.1 points over SFT distillation and +5.3 / +3.6 points over reference-free self-improvement on AlpacaEval / Arena-Hard. These results highlight the potential of using reference-guided LLM-evaluators to enable effective LLM post-training in non-verifiable domains.
PDF01February 21, 2026