RAG-RewardBench: Сравнение моделей вознаграждения в увеличенной ретриевной генерации для выравнивания предпочтений

RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment

December 18, 2024
Авторы: Zhuoran Jin, Hongbang Yuan, Tianyi Men, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao
cs.AI

Аннотация

Несмотря на значительный прогресс, достигнутый существующими моделями языка с расширенным поиском (RALM) в предоставлении достоверных ответов и обосновании на основе надежных источников, они часто не учитывают эффективное выравнивание с предпочтениями человека. В процессе выравнивания модели вознаграждения (RMs) выступают важным прокси для человеческих ценностей, направляя оптимизацию. Однако остается неясным, как оценивать и выбирать надежную RM для выравнивания предпочтений в RALM. Для этой цели мы предлагаем RAG-RewardBench, первый бенчмарк для оценки RMs в настройках RAG. Сначала мы разрабатываем четыре критических и сложных сценария, специфичных для RAG, для оценки RMs, включая многопрыжковое рассуждение, тонкую цитирование, подходящее воздержание и устойчивость к конфликтам. Затем мы включаем 18 подмножеств RAG, шесть поисковиков и 24 RALM для увеличения разнообразия источников данных. Наконец, мы принимаем подход LLM-как-судья для улучшения эффективности и эффективности аннотации предпочтений, демонстрируя сильную корреляцию с человеческими аннотациями. Основываясь на RAG-RewardBench, мы проводим всестороннюю оценку 45 RMs и выявляем их ограничения в сценариях RAG. Кроме того, мы также раскрываем, что существующие обученные RALM показывают практически никакого улучшения в выравнивании предпочтений, подчеркивая необходимость перехода к обучению с учетом предпочтений. Мы публикуем наш бенчмарк и код публично по адресу https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ для будущих работ.
English
Despite the significant progress made by existing retrieval augmented language models (RALMs) in providing trustworthy responses and grounding in reliable sources, they often overlook effective alignment with human preferences. In the alignment process, reward models (RMs) act as a crucial proxy for human values to guide optimization. However, it remains unclear how to evaluate and select a reliable RM for preference alignment in RALMs. To this end, we propose RAG-RewardBench, the first benchmark for evaluating RMs in RAG settings. First, we design four crucial and challenging RAG-specific scenarios to assess RMs, including multi-hop reasoning, fine-grained citation, appropriate abstain, and conflict robustness. Then, we incorporate 18 RAG subsets, six retrievers, and 24 RALMs to increase the diversity of data sources. Finally, we adopt an LLM-as-a-judge approach to improve preference annotation efficiency and effectiveness, exhibiting a strong correlation with human annotations. Based on the RAG-RewardBench, we conduct a comprehensive evaluation of 45 RMs and uncover their limitations in RAG scenarios. Additionally, we also reveal that existing trained RALMs show almost no improvement in preference alignment, highlighting the need for a shift towards preference-aligned training.We release our benchmark and code publicly at https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ for future work.

Summary

AI-Generated Summary

PDF92December 19, 2024