Evaluación de RAG-Fusion con RAGElo: un Marco Automatizado Basado en Elo
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework
June 20, 2024
Autores: Zackary Rackauckas, Arthur Câmara, Jakub Zavrel
cs.AI
Resumen
Los desafíos en la evaluación automatizada de sistemas de Generación Aumentada por Recuperación (RAG) para Preguntas y Respuestas (QA) incluyen problemas de alucinación en conocimientos específicos de dominio y la falta de benchmarks de referencia estándar para tareas internas de empresas. Esto resulta en dificultades para evaluar variantes de RAG, como RAG-Fusion (RAGF), en el contexto de una tarea de QA de producto en Infineon Technologies. Para resolver estos problemas, proponemos un marco de evaluación integral que aprovecha los Modelos de Lenguaje de Gran Escala (LLMs) para generar grandes conjuntos de datos de consultas sintéticas basadas en consultas reales de usuarios y documentos del dominio, utiliza LLM-como-juez para calificar documentos recuperados y respuestas, evalúa la calidad de las respuestas y clasifica diferentes variantes de agentes de Generación Aumentada por Recuperación (RAG) mediante la competencia automatizada basada en Elo de RAGElo. La calificación de LLM-como-juez de una muestra aleatoria de consultas sintéticas muestra una correlación positiva moderada con la puntuación de expertos del dominio en relevancia, precisión, completitud y exactitud. Si bien RAGF superó a RAG en puntuación Elo, un análisis de significancia frente a anotaciones de expertos también muestra que RAGF supera significativamente a RAG en completitud, pero tiene un rendimiento inferior en precisión. Además, el asistente RAGF de Infineon demostró un rendimiento ligeramente superior en relevancia de documentos según las puntuaciones MRR@5. Encontramos que RAGElo se alinea positivamente con las preferencias de los anotadores humanos, aunque aún se requiere precaución. Finalmente, el enfoque de RAGF conduce a respuestas más completas según las anotaciones de expertos y mejores respuestas en general según los criterios de evaluación de RAGElo.
English
Challenges in the automated evaluation of Retrieval-Augmented Generation
(RAG) Question-Answering (QA) systems include hallucination problems in
domain-specific knowledge and the lack of gold standard benchmarks for company
internal tasks. This results in difficulties in evaluating RAG variations, like
RAG-Fusion (RAGF), in the context of a product QA task at Infineon
Technologies. To solve these problems, we propose a comprehensive evaluation
framework, which leverages Large Language Models (LLMs) to generate large
datasets of synthetic queries based on real user queries and in-domain
documents, uses LLM-as-a-judge to rate retrieved documents and answers,
evaluates the quality of answers, and ranks different variants of
Retrieval-Augmented Generation (RAG) agents with RAGElo's automated Elo-based
competition. LLM-as-a-judge rating of a random sample of synthetic queries
shows a moderate, positive correlation with domain expert scoring in relevance,
accuracy, completeness, and precision. While RAGF outperformed RAG in Elo
score, a significance analysis against expert annotations also shows that RAGF
significantly outperforms RAG in completeness, but underperforms in precision.
In addition, Infineon's RAGF assistant demonstrated slightly higher performance
in document relevance based on MRR@5 scores. We find that RAGElo positively
aligns with the preferences of human annotators, though due caution is still
required. Finally, RAGF's approach leads to more complete answers based on
expert annotations and better answers overall based on RAGElo's evaluation
criteria.Summary
AI-Generated Summary