ChatPaper.aiChatPaper

RAGElo를 통한 RAG-Fusion 평가: 자동화된 Elo 기반 프레임워크

Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework

June 20, 2024
저자: Zackary Rackauckas, Arthur Câmara, Jakub Zavrel
cs.AI

초록

검색 증강 생성(Retrieval-Augmented Generation, RAG) 질의응답(Question-Answering, QA) 시스템의 자동화된 평가에서의 주요 과제는 도메인 특화 지식에서의 환각(hallucination) 문제와 기업 내부 업무를 위한 표준 벤치마크의 부재입니다. 이로 인해 Infineon Technologies의 제품 QA 작업과 같은 맥락에서 RAG-Fusion(RAGF)과 같은 RAG 변형을 평가하는 데 어려움이 발생합니다. 이러한 문제를 해결하기 위해, 우리는 대규모 언어 모델(Large Language Models, LLMs)을 활용하여 실제 사용자 질의와 도메인 내 문서를 기반으로 합성 질의 데이터셋을 생성하고, LLM-as-a-judge를 사용하여 검색된 문서와 답변을 평가하며, 답변의 품질을 평가하고, RAGElo의 자동화된 Elo 기반 경쟁을 통해 다양한 검색 증강 생성(RAG) 에이전트 변형을 순위 매기는 포괄적인 평가 프레임워크를 제안합니다. 합성 질의의 무작위 샘플에 대한 LLM-as-a-judge 평가는 관련성, 정확성, 완전성 및 정밀성 측면에서 도메인 전문가 점수와 중간 정도의 양의 상관관계를 보여줍니다. RAGF가 Elo 점수에서 RAG를 능가했지만, 전문가 주석에 대한 유의성 분석은 RAGF가 완전성에서는 RAG를 크게 능가하지만 정밀성에서는 뒤처지는 것을 보여줍니다. 또한, Infineon의 RAGF 어시스턴트는 MRR@5 점수를 기반으로 문서 관련성에서 약간 더 높은 성능을 보였습니다. 우리는 RAGElo가 인간 주석자의 선호도와 긍정적으로 일치함을 발견했지만, 여전히 주의가 필요합니다. 마지막으로, RAGF의 접근 방식은 전문가 주석에 기반한 더 완전한 답변과 RAGElo의 평가 기준에 따른 전반적으로 더 나은 답변을 이끌어냅니다.
English
Challenges in the automated evaluation of Retrieval-Augmented Generation (RAG) Question-Answering (QA) systems include hallucination problems in domain-specific knowledge and the lack of gold standard benchmarks for company internal tasks. This results in difficulties in evaluating RAG variations, like RAG-Fusion (RAGF), in the context of a product QA task at Infineon Technologies. To solve these problems, we propose a comprehensive evaluation framework, which leverages Large Language Models (LLMs) to generate large datasets of synthetic queries based on real user queries and in-domain documents, uses LLM-as-a-judge to rate retrieved documents and answers, evaluates the quality of answers, and ranks different variants of Retrieval-Augmented Generation (RAG) agents with RAGElo's automated Elo-based competition. LLM-as-a-judge rating of a random sample of synthetic queries shows a moderate, positive correlation with domain expert scoring in relevance, accuracy, completeness, and precision. While RAGF outperformed RAG in Elo score, a significance analysis against expert annotations also shows that RAGF significantly outperforms RAG in completeness, but underperforms in precision. In addition, Infineon's RAGF assistant demonstrated slightly higher performance in document relevance based on MRR@5 scores. We find that RAGElo positively aligns with the preferences of human annotators, though due caution is still required. Finally, RAGF's approach leads to more complete answers based on expert annotations and better answers overall based on RAGElo's evaluation criteria.

Summary

AI-Generated Summary

PDF172November 29, 2024