GroUSE: Ein Benchmark zur Bewertung von Evaluatoren im Kontextbasierten Frage-Antworten.
GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering
September 10, 2024
Autoren: Sacha Muller, António Loison, Bilel Omrani, Gautier Viaud
cs.AI
Zusammenfassung
Die Retrieval-Augmented Generation (RAG) hat sich als ein gängiges Paradigma etabliert, um Large Language Models (LLMs) zusammen mit privaten und aktuellen Wissensbasen zu nutzen. In dieser Arbeit behandeln wir die Herausforderungen bei der Verwendung von LLM-als-Richter zur Bewertung fundierter Antworten, die von RAG-Systemen generiert wurden. Um die Kalibrierungs- und Diskriminierungsfähigkeiten von Richtermodellen zu bewerten, identifizieren wir 7 Generierungsfehlermodi und stellen GroUSE (Grounded QA Unitary Scoring of Evaluators) vor, einen Meta-Evaluierungs-Benchmark mit 144 Einheitstests. Dieser Benchmark zeigt auf, dass bestehende automatisierte RAG-Evaluierungsfelder oft wichtige Fehlermodi übersehen, selbst wenn GPT-4 als Richter verwendet wird.
Um das aktuelle Design automatisierter RAG-Evaluierungsfelder zu verbessern, schlagen wir eine neuartige Pipeline vor und stellen fest, dass geschlossene Modelle zwar bei GroUSE gut abschneiden, führende Open-Source-Richter jedoch nicht auf unsere vorgeschlagenen Kriterien verallgemeinern, trotz einer starken Korrelation mit GPT-4's Bewertung. Unsere Ergebnisse legen nahe, dass die Korrelation mit GPT-4 ein unvollständiges Proxy für die praktische Leistung von Richtermodellen ist und durch Evaluierungen an Einheitstests zur präzisen Fehlermoduserkennung ergänzt werden sollte.
Des Weiteren zeigen wir, dass das Feintuning von Llama-3 an GPT-4's Denkspuren seine Evaluierungsfähigkeiten signifikant steigert, was sowohl die Korrelation mit GPT-4's Bewertungen als auch die Kalibrierung in Referenzsituationen verbessert.
English
Retrieval-Augmented Generation (RAG) has emerged as a common paradigm to use
Large Language Models (LLMs) alongside private and up-to-date knowledge bases.
In this work, we address the challenges of using LLM-as-a-Judge when evaluating
grounded answers generated by RAG systems. To assess the calibration and
discrimination capabilities of judge models, we identify 7 generator failure
modes and introduce GroUSE (Grounded QA Unitary Scoring of Evaluators), a
meta-evaluation benchmark of 144 unit tests. This benchmark reveals that
existing automated RAG evaluation frameworks often overlook important failure
modes, even when using GPT-4 as a judge.
To improve on the current design of automated RAG evaluation frameworks, we
propose a novel pipeline and find that while closed models perform well on
GroUSE, state-of-the-art open-source judges do not generalize to our proposed
criteria, despite strong correlation with GPT-4's judgement. Our findings
suggest that correlation with GPT-4 is an incomplete proxy for the practical
performance of judge models and should be supplemented with evaluations on unit
tests for precise failure mode detection.
We further show that finetuning Llama-3 on GPT-4's reasoning traces
significantly boosts its evaluation capabilities, improving upon both
correlation with GPT-4's evaluations and calibration on reference situations.Summary
AI-Generated Summary