ChatPaper.aiChatPaper

Оценка RAG-Fusion с помощью RAGElo: автоматизированная Elo-основанная платформа

Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework

June 20, 2024
Авторы: Zackary Rackauckas, Arthur Câmara, Jakub Zavrel
cs.AI

Аннотация

Одной из проблем при автоматической оценке систем вопросно-ответной (QA) системы с увеличением поисковых запросов (RAG) являются проблемы галлюцинаций в областях специфических знаний и отсутствие стандартных бенчмарков для внутренних задач компании. Это приводит к трудностям при оценке вариаций RAG, таких как RAG-Fusion (RAGF), в контексте задачи по продуктовой QA в Infineon Technologies. Для решения этих проблем мы предлагаем комплексную систему оценки, которая использует большие языковые модели (LLM) для создания больших наборов синтетических запросов на основе реальных запросов пользователей и документов внутри области, использует LLM в качестве судьи для оценки извлеченных документов и ответов, оценивает качество ответов и ранжирует различные варианты агентов Retrieval-Augmented Generation (RAG) с помощью автоматизированного соревнования RAGElo на основе системы Elo. Оценка LLM в качестве судьи случайной выборки синтетических запросов показывает умеренную положительную корреляцию с оценками экспертов в области в релевантности, точности, полноте и точности. В то время как RAGF превзошел RAG по баллам Elo, анализ значимости по сравнению с экспертными аннотациями также показывает, что RAGF значительно превосходит RAG в полноте, но уступает в точности. Кроме того, ассистент RAGF в Infineon продемонстрировал незначительно более высокую производительность в релевантности документов на основе показателей MRR@5. Мы обнаружили, что RAGElo положительно соответствует предпочтениям человеческих аннотаторов, однако требуется осторожность. Наконец, подход RAGF приводит к более полным ответам на основе экспертных аннотаций и лучшим ответам в целом на основе критериев оценки RAGElo.
English
Challenges in the automated evaluation of Retrieval-Augmented Generation (RAG) Question-Answering (QA) systems include hallucination problems in domain-specific knowledge and the lack of gold standard benchmarks for company internal tasks. This results in difficulties in evaluating RAG variations, like RAG-Fusion (RAGF), in the context of a product QA task at Infineon Technologies. To solve these problems, we propose a comprehensive evaluation framework, which leverages Large Language Models (LLMs) to generate large datasets of synthetic queries based on real user queries and in-domain documents, uses LLM-as-a-judge to rate retrieved documents and answers, evaluates the quality of answers, and ranks different variants of Retrieval-Augmented Generation (RAG) agents with RAGElo's automated Elo-based competition. LLM-as-a-judge rating of a random sample of synthetic queries shows a moderate, positive correlation with domain expert scoring in relevance, accuracy, completeness, and precision. While RAGF outperformed RAG in Elo score, a significance analysis against expert annotations also shows that RAGF significantly outperforms RAG in completeness, but underperforms in precision. In addition, Infineon's RAGF assistant demonstrated slightly higher performance in document relevance based on MRR@5 scores. We find that RAGElo positively aligns with the preferences of human annotators, though due caution is still required. Finally, RAGF's approach leads to more complete answers based on expert annotations and better answers overall based on RAGElo's evaluation criteria.

Summary

AI-Generated Summary

PDF172November 29, 2024