GroUSE : un banc d'essai pour évaluer les évaluateurs dans la réponse aux questions ancrées.
GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering
September 10, 2024
Auteurs: Sacha Muller, António Loison, Bilel Omrani, Gautier Viaud
cs.AI
Résumé
La Génération Augmentée par Récupération (RAG) a émergé comme un paradigme courant pour utiliser les Grands Modèles de Langage (LLM) aux côtés de bases de connaissances privées et à jour. Dans ce travail, nous abordons les défis liés à l'utilisation de LLM-comme-Juge lors de l'évaluation des réponses fondées générées par les systèmes RAG. Pour évaluer les capacités de calibration et de discrimination des modèles de juges, nous identifions 7 modes d'échec des générateurs et introduisons GroUSE (Scoring Unitaire de l'Évaluation des Questions-Réponses Fondées), un banc d'essai de méta-évaluation de 144 tests unitaires. Ce banc d'essai révèle que les cadres d'évaluation RAG automatisés existants négligent souvent des modes d'échec importants, même lors de l'utilisation de GPT-4 comme juge.
Pour améliorer la conception actuelle des cadres d'évaluation RAG automatisés, nous proposons un pipeline novateur et constatons que, bien que les modèles fermés performant bien sur GroUSE, les juges open-source de pointe ne se généralisent pas à nos critères proposés, malgré une forte corrélation avec le jugement de GPT-4. Nos résultats suggèrent que la corrélation avec GPT-4 est un proxy incomplet pour la performance pratique des modèles de juges et devrait être complétée par des évaluations sur des tests unitaires pour une détection précise des modes d'échec.
Nous montrons en outre que le réglage fin de Llama-3 sur les traces de raisonnement de GPT-4 renforce significativement ses capacités d'évaluation, améliorant à la fois la corrélation avec les évaluations de GPT-4 et la calibration sur des situations de référence.
English
Retrieval-Augmented Generation (RAG) has emerged as a common paradigm to use
Large Language Models (LLMs) alongside private and up-to-date knowledge bases.
In this work, we address the challenges of using LLM-as-a-Judge when evaluating
grounded answers generated by RAG systems. To assess the calibration and
discrimination capabilities of judge models, we identify 7 generator failure
modes and introduce GroUSE (Grounded QA Unitary Scoring of Evaluators), a
meta-evaluation benchmark of 144 unit tests. This benchmark reveals that
existing automated RAG evaluation frameworks often overlook important failure
modes, even when using GPT-4 as a judge.
To improve on the current design of automated RAG evaluation frameworks, we
propose a novel pipeline and find that while closed models perform well on
GroUSE, state-of-the-art open-source judges do not generalize to our proposed
criteria, despite strong correlation with GPT-4's judgement. Our findings
suggest that correlation with GPT-4 is an incomplete proxy for the practical
performance of judge models and should be supplemented with evaluations on unit
tests for precise failure mode detection.
We further show that finetuning Llama-3 on GPT-4's reasoning traces
significantly boosts its evaluation capabilities, improving upon both
correlation with GPT-4's evaluations and calibration on reference situations.Summary
AI-Generated Summary