GroUSE: Um Benchmark para Avaliar Avaliadores em Questionamento Fundamentado e Resposta.
GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering
September 10, 2024
Autores: Sacha Muller, António Loison, Bilel Omrani, Gautier Viaud
cs.AI
Resumo
A Geração com Recuperação Aprimorada (RAG) surgiu como um paradigma comum para usar Modelos de Linguagem Grandes (LLMs) ao lado de bases de conhecimento privadas e atualizadas. Neste trabalho, abordamos os desafios de usar LLM-como-Juíz ao avaliar respostas fundamentadas geradas por sistemas RAG. Para avaliar as capacidades de calibração e discriminação dos modelos de juízes, identificamos 7 modos de falha do gerador e introduzimos o GroUSE (Pontuação Unitária de Avaliação Fundamentada de Perguntas e Respostas), um benchmark de meta-avaliação de 144 testes unitários. Este benchmark revela que os frameworks de avaliação automatizada de RAG existentes frequentemente ignoram modos de falha importantes, mesmo ao usar o GPT-4 como juiz.
Para melhorar o design atual dos frameworks de avaliação automatizada de RAG, propomos um novo pipeline e descobrimos que, embora os modelos fechados tenham um bom desempenho no GroUSE, os juízes de código aberto de última geração não se generalizam para nossos critérios propostos, apesar da forte correlação com a avaliação do GPT-4. Nossas descobertas sugerem que a correlação com o GPT-4 é um proxy incompleto para o desempenho prático dos modelos de juízes e deve ser complementada com avaliações em testes unitários para detecção precisa de modos de falha.
Além disso, demonstramos que o ajuste fino do Llama-3 nos rastros de raciocínio do GPT-4 aumenta significativamente suas capacidades de avaliação, melhorando tanto a correlação com as avaliações do GPT-4 quanto a calibração em situações de referência.
English
Retrieval-Augmented Generation (RAG) has emerged as a common paradigm to use
Large Language Models (LLMs) alongside private and up-to-date knowledge bases.
In this work, we address the challenges of using LLM-as-a-Judge when evaluating
grounded answers generated by RAG systems. To assess the calibration and
discrimination capabilities of judge models, we identify 7 generator failure
modes and introduce GroUSE (Grounded QA Unitary Scoring of Evaluators), a
meta-evaluation benchmark of 144 unit tests. This benchmark reveals that
existing automated RAG evaluation frameworks often overlook important failure
modes, even when using GPT-4 as a judge.
To improve on the current design of automated RAG evaluation frameworks, we
propose a novel pipeline and find that while closed models perform well on
GroUSE, state-of-the-art open-source judges do not generalize to our proposed
criteria, despite strong correlation with GPT-4's judgement. Our findings
suggest that correlation with GPT-4 is an incomplete proxy for the practical
performance of judge models and should be supplemented with evaluations on unit
tests for precise failure mode detection.
We further show that finetuning Llama-3 on GPT-4's reasoning traces
significantly boosts its evaluation capabilities, improving upon both
correlation with GPT-4's evaluations and calibration on reference situations.Summary
AI-Generated Summary