Evaluatie van RAG-Fusion met RAGElo: een geautomatiseerd Elo-gebaseerd raamwerk
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework
June 20, 2024
Auteurs: Zackary Rackauckas, Arthur Câmara, Jakub Zavrel
cs.AI
Samenvatting
Uitdagingen bij de geautomatiseerde evaluatie van Retrieval-Augmented Generation (RAG) vraag-antwoord (QA) systemen omvatten hallucinatieproblemen in domeinspecifieke kennis en het ontbreken van gouden standaard benchmarks voor bedrijfsinterne taken. Dit resulteert in moeilijkheden bij het evalueren van RAG-varianten, zoals RAG-Fusion (RAGF), in de context van een product QA-taak bij Infineon Technologies. Om deze problemen op te lossen, stellen we een uitgebreid evaluatiekader voor, dat gebruik maakt van Large Language Models (LLMs) om grote datasets van synthetische vragen te genereren op basis van echte gebruikersvragen en domeinspecifieke documenten, LLM-as-a-judge gebruikt om opgehaalde documenten en antwoorden te beoordelen, de kwaliteit van antwoorden evalueert, en verschillende varianten van Retrieval-Augmented Generation (RAG) agents rangschikt met RAGElo's geautomatiseerde Elo-gebaseerde competitie. De LLM-as-a-judge beoordeling van een willekeurige steekproef van synthetische vragen toont een matige, positieve correlatie met domeinexpertbeoordelingen in relevantie, nauwkeurigheid, volledigheid en precisie. Hoewel RAGF RAG overtrof in Elo-score, toont een significantieanalyse tegen expertannotaties ook aan dat RAGF significant beter presteert dan RAG in volledigheid, maar onderpresteert in precisie. Daarnaast toonde Infineon's RAGF-assistent een iets hogere prestaties in documentrelevantie op basis van MRR@5-scores. We constateren dat RAGElo positief aansluit bij de voorkeuren van menselijke annotators, hoewel voorzichtigheid nog steeds geboden is. Tot slot leidt de aanpak van RAGF tot volledigere antwoorden op basis van expertannotaties en betere antwoorden in het algemeen op basis van RAGElo's evaluatiecriteria.
English
Challenges in the automated evaluation of Retrieval-Augmented Generation
(RAG) Question-Answering (QA) systems include hallucination problems in
domain-specific knowledge and the lack of gold standard benchmarks for company
internal tasks. This results in difficulties in evaluating RAG variations, like
RAG-Fusion (RAGF), in the context of a product QA task at Infineon
Technologies. To solve these problems, we propose a comprehensive evaluation
framework, which leverages Large Language Models (LLMs) to generate large
datasets of synthetic queries based on real user queries and in-domain
documents, uses LLM-as-a-judge to rate retrieved documents and answers,
evaluates the quality of answers, and ranks different variants of
Retrieval-Augmented Generation (RAG) agents with RAGElo's automated Elo-based
competition. LLM-as-a-judge rating of a random sample of synthetic queries
shows a moderate, positive correlation with domain expert scoring in relevance,
accuracy, completeness, and precision. While RAGF outperformed RAG in Elo
score, a significance analysis against expert annotations also shows that RAGF
significantly outperforms RAG in completeness, but underperforms in precision.
In addition, Infineon's RAGF assistant demonstrated slightly higher performance
in document relevance based on MRR@5 scores. We find that RAGElo positively
aligns with the preferences of human annotators, though due caution is still
required. Finally, RAGF's approach leads to more complete answers based on
expert annotations and better answers overall based on RAGElo's evaluation
criteria.