RAG-RewardBench: Сравнение моделей вознаграждения в увеличенной ретриевной генерации для выравнивания предпочтений
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment
December 18, 2024
Авторы: Zhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI
Аннотация
Несмотря на значительный прогресс, достигнутый существующими моделями языка с расширенным поиском (RALM) в предоставлении достоверных ответов и обосновании на основе надежных источников, они часто не учитывают эффективное выравнивание с предпочтениями человека. В процессе выравнивания модели вознаграждения (RMs) выступают важным прокси для человеческих ценностей, направляя оптимизацию. Однако остается неясным, как оценивать и выбирать надежную RM для выравнивания предпочтений в RALM. Для этой цели мы предлагаем RAG-RewardBench, первый бенчмарк для оценки RMs в настройках RAG. Сначала мы разрабатываем четыре критических и сложных сценария, специфичных для RAG, для оценки RMs, включая многопрыжковое рассуждение, тонкую цитирование, подходящее воздержание и устойчивость к конфликтам. Затем мы включаем 18 подмножеств RAG, шесть поисковиков и 24 RALM для увеличения разнообразия источников данных. Наконец, мы принимаем подход LLM-как-судья для улучшения эффективности и эффективности аннотации предпочтений, демонстрируя сильную корреляцию с человеческими аннотациями. Основываясь на RAG-RewardBench, мы проводим всестороннюю оценку 45 RMs и выявляем их ограничения в сценариях RAG. Кроме того, мы также раскрываем, что существующие обученные RALM показывают практически никакого улучшения в выравнивании предпочтений, подчеркивая необходимость перехода к обучению с учетом предпочтений. Мы публикуем наш бенчмарк и код публично по адресу https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ для будущих работ.
English
Despite the significant progress made by existing retrieval augmented
language models (RALMs) in providing trustworthy responses and grounding in
reliable sources, they often overlook effective alignment with human
preferences. In the alignment process, reward models (RMs) act as a crucial
proxy for human values to guide optimization. However, it remains unclear how
to evaluate and select a reliable RM for preference alignment in RALMs. To this
end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG
settings. First, we design four crucial and challenging RAG-specific scenarios
to assess RMs, including multi-hop reasoning, fine-grained citation,
appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG
subsets, six retrievers, and 24 RALMs to increase the diversity of data
sources. Finally, we adopt an LLM-as-a-judge approach to improve preference
annotation efficiency and effectiveness, exhibiting a strong correlation with
human annotations. Based on the RAG-RewardBench, we conduct a comprehensive
evaluation of 45 RMs and uncover their limitations in RAG scenarios.
Additionally, we also reveal that existing trained RALMs show almost no
improvement in preference alignment, highlighting the need for a shift towards
preference-aligned training.We release our benchmark and code publicly at
https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.Summary
AI-Generated Summary