ChatPaper.aiChatPaper

GroUSE: Un conjunto de pruebas para evaluar evaluadores en preguntas y respuestas fundamentadas.

GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering

September 10, 2024
Autores: Sacha Muller, António Loison, Bilel Omrani, Gautier Viaud
cs.AI

Resumen

La Generación con Recuperación Aumentada (RAG) ha surgido como un paradigma común para utilizar Modelos de Lenguaje Grandes (LLMs) junto con bases de conocimiento privadas y actualizadas. En este trabajo, abordamos los desafíos de utilizar LLM-como-Juez al evaluar respuestas fundamentadas generadas por sistemas RAG. Para evaluar las capacidades de calibración y discriminación de los modelos de juez, identificamos 7 modos de falla del generador e introducimos GroUSE (Puntuación Unitaria de Evaluadores de Preguntas y Respuestas Fundamentadas), un banco de pruebas de metaevaluación de 144 pruebas unitarias. Este banco de pruebas revela que los marcos de evaluación automatizados de RAG existentes a menudo pasan por alto modos de falla importantes, incluso al utilizar GPT-4 como juez. Para mejorar el diseño actual de los marcos de evaluación automatizados de RAG, proponemos un nuevo proceso y descubrimos que si bien los modelos cerrados tienen un buen desempeño en GroUSE, los jueces de código abierto de vanguardia no se generalizan a nuestros criterios propuestos, a pesar de la fuerte correlación con el juicio de GPT-4. Nuestros hallazgos sugieren que la correlación con GPT-4 es un proxy incompleto para el rendimiento práctico de los modelos de juez y debe complementarse con evaluaciones en pruebas unitarias para una detección precisa de modos de falla. Además, demostramos que el ajuste fino de Llama-3 en las trazas de razonamiento de GPT-4 aumenta significativamente sus capacidades de evaluación, mejorando tanto la correlación con las evaluaciones de GPT-4 como la calibración en situaciones de referencia.
English
Retrieval-Augmented Generation (RAG) has emerged as a common paradigm to use Large Language Models (LLMs) alongside private and up-to-date knowledge bases. In this work, we address the challenges of using LLM-as-a-Judge when evaluating grounded answers generated by RAG systems. To assess the calibration and discrimination capabilities of judge models, we identify 7 generator failure modes and introduce GroUSE (Grounded QA Unitary Scoring of Evaluators), a meta-evaluation benchmark of 144 unit tests. This benchmark reveals that existing automated RAG evaluation frameworks often overlook important failure modes, even when using GPT-4 as a judge. To improve on the current design of automated RAG evaluation frameworks, we propose a novel pipeline and find that while closed models perform well on GroUSE, state-of-the-art open-source judges do not generalize to our proposed criteria, despite strong correlation with GPT-4's judgement. Our findings suggest that correlation with GPT-4 is an incomplete proxy for the practical performance of judge models and should be supplemented with evaluations on unit tests for precise failure mode detection. We further show that finetuning Llama-3 on GPT-4's reasoning traces significantly boosts its evaluation capabilities, improving upon both correlation with GPT-4's evaluations and calibration on reference situations.

Summary

AI-Generated Summary

PDF382November 16, 2024