Die Evaluierung von RAG-Fusion mit RAGElo: ein automatisiertes Elo-basiertes Framework.
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework
June 20, 2024
Autoren: Zackary Rackauckas, Arthur Câmara, Jakub Zavrel
cs.AI
Zusammenfassung
Herausforderungen bei der automatisierten Bewertung von Retrieval-Augmented Generation (RAG) Frage-Antwort (QA) Systemen umfassen Halluzinationsprobleme im domänenspezifischen Wissen und das Fehlen von Goldstandard-Benchmarks für unternehmensinterne Aufgaben. Dies führt zu Schwierigkeiten bei der Bewertung von RAG-Varianten, wie RAG-Fusion (RAGF), im Kontext einer Produkt-QA-Aufgabe bei Infineon Technologies. Um diese Probleme zu lösen, schlagen wir ein umfassendes Bewertungsframework vor, das auf Large Language Models (LLMs) setzt, um große Datensätze synthetischer Anfragen basierend auf realen Benutzeranfragen und in-domänen Dokumenten zu generieren, LLM-als-Richter zur Bewertung von abgerufenen Dokumenten und Antworten einzusetzt, die Qualität der Antworten bewertet und verschiedene Varianten von Retrieval-Augmented Generation (RAG) Agenten mit RAGElo's automatisiertem Elo-basiertem Wettbewerb einstuft. Die Bewertung von LLM-als-Richter anhand einer zufälligen Stichprobe synthetischer Anfragen zeigt eine mäßige, positive Korrelation mit der Bewertung durch Domänenexperten in Bezug auf Relevanz, Genauigkeit, Vollständigkeit und Präzision. Während RAGF in der Elo-Wertung RAG übertraf, zeigt eine Signifikanzanalyse gegenüber Expertenannotationen auch, dass RAGF in Vollständigkeit signifikant besser abschneidet als RAG, jedoch in Präzision unterlegen ist. Darüber hinaus zeigte Infineons RAGF-Assistent eine leicht höhere Leistung in der Dokumentenrelevanz basierend auf MRR@5-Werten. Wir stellen fest, dass RAGElo positiv mit den Präferenzen menschlicher Annotatoren übereinstimmt, obwohl weiterhin Vorsicht geboten ist. Schließlich führt der Ansatz von RAGF zu vollständigeren Antworten basierend auf Expertenannotationen und insgesamt besseren Antworten basierend auf den Bewertungskriterien von RAGElo.
English
Challenges in the automated evaluation of Retrieval-Augmented Generation
(RAG) Question-Answering (QA) systems include hallucination problems in
domain-specific knowledge and the lack of gold standard benchmarks for company
internal tasks. This results in difficulties in evaluating RAG variations, like
RAG-Fusion (RAGF), in the context of a product QA task at Infineon
Technologies. To solve these problems, we propose a comprehensive evaluation
framework, which leverages Large Language Models (LLMs) to generate large
datasets of synthetic queries based on real user queries and in-domain
documents, uses LLM-as-a-judge to rate retrieved documents and answers,
evaluates the quality of answers, and ranks different variants of
Retrieval-Augmented Generation (RAG) agents with RAGElo's automated Elo-based
competition. LLM-as-a-judge rating of a random sample of synthetic queries
shows a moderate, positive correlation with domain expert scoring in relevance,
accuracy, completeness, and precision. While RAGF outperformed RAG in Elo
score, a significance analysis against expert annotations also shows that RAGF
significantly outperforms RAG in completeness, but underperforms in precision.
In addition, Infineon's RAGF assistant demonstrated slightly higher performance
in document relevance based on MRR@5 scores. We find that RAGElo positively
aligns with the preferences of human annotators, though due caution is still
required. Finally, RAGF's approach leads to more complete answers based on
expert annotations and better answers overall based on RAGElo's evaluation
criteria.Summary
AI-Generated Summary