Valutazione di RAG-Fusion con RAGElo: un Framework Automatico Basato su Elo
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework
June 20, 2024
Autori: Zackary Rackauckas, Arthur Câmara, Jakub Zavrel
cs.AI
Abstract
Le sfide nella valutazione automatizzata dei sistemi di Question-Answering (QA) basati su Retrieval-Augmented Generation (RAG) includono problemi di allucinazione nella conoscenza specifica del dominio e la mancanza di benchmark di riferimento per attività interne alle aziende. Ciò comporta difficoltà nel valutare le varianti di RAG, come RAG-Fusion (RAGF), nel contesto di un'attività di QA per il prodotto presso Infineon Technologies. Per risolvere questi problemi, proponiamo un framework di valutazione completo, che sfrutta i Large Language Models (LLM) per generare grandi dataset di query sintetiche basate su query reali degli utenti e documenti di dominio specifico, utilizza LLM-as-a-judge per valutare i documenti e le risposte recuperati, valuta la qualità delle risposte e classifica diverse varianti di agenti RAG attraverso la competizione automatizzata basata su Elo di RAGElo. La valutazione LLM-as-a-judge di un campione casuale di query sintetiche mostra una moderata correlazione positiva con il punteggio degli esperti di dominio in termini di rilevanza, accuratezza, completezza e precisione. Sebbene RAGF abbia superato RAG nel punteggio Elo, un'analisi di significatività rispetto alle annotazioni degli esperti mostra anche che RAGF supera significativamente RAG in completezza, ma è inferiore in precisione. Inoltre, l'assistente RAGF di Infineon ha dimostrato una performance leggermente superiore nella rilevanza dei documenti basata sui punteggi MRR@5. Riteniamo che RAGElo sia in linea con le preferenze degli annotatori umani, sebbene sia ancora necessaria una certa cautela. Infine, l'approccio di RAGF porta a risposte più complete secondo le annotazioni degli esperti e a risposte migliori in generale secondo i criteri di valutazione di RAGElo.
English
Challenges in the automated evaluation of Retrieval-Augmented Generation
(RAG) Question-Answering (QA) systems include hallucination problems in
domain-specific knowledge and the lack of gold standard benchmarks for company
internal tasks. This results in difficulties in evaluating RAG variations, like
RAG-Fusion (RAGF), in the context of a product QA task at Infineon
Technologies. To solve these problems, we propose a comprehensive evaluation
framework, which leverages Large Language Models (LLMs) to generate large
datasets of synthetic queries based on real user queries and in-domain
documents, uses LLM-as-a-judge to rate retrieved documents and answers,
evaluates the quality of answers, and ranks different variants of
Retrieval-Augmented Generation (RAG) agents with RAGElo's automated Elo-based
competition. LLM-as-a-judge rating of a random sample of synthetic queries
shows a moderate, positive correlation with domain expert scoring in relevance,
accuracy, completeness, and precision. While RAGF outperformed RAG in Elo
score, a significance analysis against expert annotations also shows that RAGF
significantly outperforms RAG in completeness, but underperforms in precision.
In addition, Infineon's RAGF assistant demonstrated slightly higher performance
in document relevance based on MRR@5 scores. We find that RAGElo positively
aligns with the preferences of human annotators, though due caution is still
required. Finally, RAGF's approach leads to more complete answers based on
expert annotations and better answers overall based on RAGElo's evaluation
criteria.