GroUSE: 지면 기반 질문 응답에서 평가자를 평가하기 위한 벤치마크
GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering
September 10, 2024
저자: Sacha Muller, António Loison, Bilel Omrani, Gautier Viaud
cs.AI
초록
검색 보강 생성(Retrieval-Augmented Generation, RAG)은 최근 일반적인 패러다임으로 대형 언어 모델(Large Language Models, LLMs)을 개인 및 최신 지식 베이스와 함께 사용하는 것으로 부상했습니다. 본 연구에서는 RAG 시스템에 의해 생성된 근거 있는 답변을 평가할 때 LLM-판단자로서의 사용에 대한 도전에 대처합니다. 판단자 모델의 보정 및 식별 능력을 평가하기 위해 7가지 생성기 실패 모드를 확인하고 144개의 단위 테스트의 메타평가 벤치마크인 GroUSE(Grounded QA Unitary Scoring of Evaluators)를 소개합니다. 이 벤치마크는 기존의 자동화된 RAG 평가 프레임워크가 종종 GPT-4를 판단자로 사용할 때도 중요한 실패 모드를 간과하는 것을 드러냅니다.
현재의 자동화된 RAG 평가 프레임워크의 설계를 개선하기 위해 우리는 새로운 파이프라인을 제안하고, 닫힌 모델이 GroUSE에서 잘 수행되지만 최첨단 오픈 소스 판단자는 제안된 기준에 일반화되지 않는다는 것을 발견했습니다. 이는 GPT-4의 판단과 강한 상관 관계가 있음에도 불구하고, 우리의 제안된 기준에 대한 판단과 일치하지 않는 것입니다. 우리의 연구 결과는 GPT-4와의 상관 관계가 판단자 모델의 실제 성능에 대한 불완전한 대리인이며, 정확한 실패 모드 감지를 위해 단위 테스트에서의 평가로 보충되어야 한다는 것을 시사합니다.
또한 GPT-4의 추론 추적에 Llama-3을 세밀하게 조정함으로써 그 평가 능력을 크게 향상시키고, GPT-4의 평가와의 상관 관계 및 참조 상황에서의 보정을 개선함을 보여줍니다.
English
Retrieval-Augmented Generation (RAG) has emerged as a common paradigm to use
Large Language Models (LLMs) alongside private and up-to-date knowledge bases.
In this work, we address the challenges of using LLM-as-a-Judge when evaluating
grounded answers generated by RAG systems. To assess the calibration and
discrimination capabilities of judge models, we identify 7 generator failure
modes and introduce GroUSE (Grounded QA Unitary Scoring of Evaluators), a
meta-evaluation benchmark of 144 unit tests. This benchmark reveals that
existing automated RAG evaluation frameworks often overlook important failure
modes, even when using GPT-4 as a judge.
To improve on the current design of automated RAG evaluation frameworks, we
propose a novel pipeline and find that while closed models perform well on
GroUSE, state-of-the-art open-source judges do not generalize to our proposed
criteria, despite strong correlation with GPT-4's judgement. Our findings
suggest that correlation with GPT-4 is an incomplete proxy for the practical
performance of judge models and should be supplemented with evaluations on unit
tests for precise failure mode detection.
We further show that finetuning Llama-3 on GPT-4's reasoning traces
significantly boosts its evaluation capabilities, improving upon both
correlation with GPT-4's evaluations and calibration on reference situations.Summary
AI-Generated Summary