Évaluation de RAG-Fusion avec RAGElo : un cadre automatisé basé sur Elo
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework
June 20, 2024
Auteurs: Zackary Rackauckas, Arthur Câmara, Jakub Zavrel
cs.AI
Résumé
Les défis de l'évaluation automatisée des systèmes de question-réponse (QA) basés sur la génération augmentée par récupération (Retrieval-Augmented Generation, RAG) incluent les problèmes d'hallucination dans les connaissances spécifiques à un domaine et l'absence de référentiels standard pour les tâches internes aux entreprises. Cela entraîne des difficultés à évaluer les variantes de RAG, comme RAG-Fusion (RAGF), dans le cadre d'une tâche de QA produit chez Infineon Technologies. Pour résoudre ces problèmes, nous proposons un cadre d'évaluation complet qui exploite les modèles de langage de grande taille (LLMs) pour générer de vastes ensembles de données de requêtes synthétiques basées sur des requêtes utilisateurs réelles et des documents du domaine, utilise le LLM-comme-juge pour évaluer les documents récupérés et les réponses, évalue la qualité des réponses, et classe différentes variantes d'agents RAG grâce à la compétition automatisée basée sur Elo de RAGElo. L'évaluation par LLM-comme-juge d'un échantillon aléatoire de requêtes synthétiques montre une corrélation positive modérée avec le scoring d'experts du domaine en termes de pertinence, exactitude, exhaustivité et précision. Bien que RAGF ait surpassé RAG en score Elo, une analyse de significativité par rapport aux annotations d'experts montre également que RAGF surpasse significativement RAG en exhaustivité, mais est moins performant en précision. De plus, l'assistant RAGF d'Infineon a démontré une performance légèrement supérieure en pertinence des documents basée sur les scores MRR@5. Nous constatons que RAGElo s'aligne positivement avec les préférences des annotateurs humains, bien qu'une certaine prudence reste nécessaire. Enfin, l'approche RAGF conduit à des réponses plus complètes selon les annotations d'experts et à de meilleures réponses globales selon les critères d'évaluation de RAGElo.
English
Challenges in the automated evaluation of Retrieval-Augmented Generation
(RAG) Question-Answering (QA) systems include hallucination problems in
domain-specific knowledge and the lack of gold standard benchmarks for company
internal tasks. This results in difficulties in evaluating RAG variations, like
RAG-Fusion (RAGF), in the context of a product QA task at Infineon
Technologies. To solve these problems, we propose a comprehensive evaluation
framework, which leverages Large Language Models (LLMs) to generate large
datasets of synthetic queries based on real user queries and in-domain
documents, uses LLM-as-a-judge to rate retrieved documents and answers,
evaluates the quality of answers, and ranks different variants of
Retrieval-Augmented Generation (RAG) agents with RAGElo's automated Elo-based
competition. LLM-as-a-judge rating of a random sample of synthetic queries
shows a moderate, positive correlation with domain expert scoring in relevance,
accuracy, completeness, and precision. While RAGF outperformed RAG in Elo
score, a significance analysis against expert annotations also shows that RAGF
significantly outperforms RAG in completeness, but underperforms in precision.
In addition, Infineon's RAGF assistant demonstrated slightly higher performance
in document relevance based on MRR@5 scores. We find that RAGElo positively
aligns with the preferences of human annotators, though due caution is still
required. Finally, RAGF's approach leads to more complete answers based on
expert annotations and better answers overall based on RAGElo's evaluation
criteria.Summary
AI-Generated Summary