Avaliando RAG-Fusion com RAGElo: um Framework Automatizado baseado em Elo
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework
June 20, 2024
Autores: Zackary Rackauckas, Arthur Câmara, Jakub Zavrel
cs.AI
Resumo
Os desafios na avaliação automatizada de sistemas de Perguntas e Respostas (QA) de Geração com Recuperação (RAG) incluem problemas de alucinação no conhecimento específico do domínio e a falta de benchmarks padrão para tarefas internas da empresa. Isso resulta em dificuldades na avaliação de variações do RAG, como RAG-Fusão (RAGF), no contexto de uma tarefa de QA de produto na Infineon Technologies. Para resolver esses problemas, propomos um framework abrangente de avaliação, que aproveita Modelos de Linguagem Grandes (LLMs) para gerar grandes conjuntos de dados de consultas sintéticas com base em consultas reais de usuários e documentos no domínio, utiliza LLM como juiz para classificar documentos e respostas recuperadas, avalia a qualidade das respostas e classifica diferentes variantes de agentes de Geração com Recuperação (RAG) com a competição automatizada baseada em Elo de RAGElo. A classificação do LLM como juiz de uma amostra aleatória de consultas sintéticas mostra uma correlação moderada e positiva com a pontuação de especialistas do domínio em relevância, precisão, completude e precisão. Enquanto o RAGF superou o RAG na pontuação Elo, uma análise de significância em relação às anotações de especialistas também mostra que o RAGF supera significativamente o RAG em completude, mas tem desempenho inferior em precisão. Além disso, o assistente RAGF da Infineon demonstrou um desempenho ligeiramente superior em relevância de documentos com base nas pontuações MRR@5. Constatamos que o RAGElo se alinha positivamente com as preferências dos anotadores humanos, embora seja necessária cautela. Por fim, a abordagem do RAGF resulta em respostas mais completas com base em anotações de especialistas e em respostas melhores no geral com base nos critérios de avaliação do RAGElo.
English
Challenges in the automated evaluation of Retrieval-Augmented Generation
(RAG) Question-Answering (QA) systems include hallucination problems in
domain-specific knowledge and the lack of gold standard benchmarks for company
internal tasks. This results in difficulties in evaluating RAG variations, like
RAG-Fusion (RAGF), in the context of a product QA task at Infineon
Technologies. To solve these problems, we propose a comprehensive evaluation
framework, which leverages Large Language Models (LLMs) to generate large
datasets of synthetic queries based on real user queries and in-domain
documents, uses LLM-as-a-judge to rate retrieved documents and answers,
evaluates the quality of answers, and ranks different variants of
Retrieval-Augmented Generation (RAG) agents with RAGElo's automated Elo-based
competition. LLM-as-a-judge rating of a random sample of synthetic queries
shows a moderate, positive correlation with domain expert scoring in relevance,
accuracy, completeness, and precision. While RAGF outperformed RAG in Elo
score, a significance analysis against expert annotations also shows that RAGF
significantly outperforms RAG in completeness, but underperforms in precision.
In addition, Infineon's RAGF assistant demonstrated slightly higher performance
in document relevance based on MRR@5 scores. We find that RAGElo positively
aligns with the preferences of human annotators, though due caution is still
required. Finally, RAGF's approach leads to more complete answers based on
expert annotations and better answers overall based on RAGElo's evaluation
criteria.