GroUSE: Un conjunto de pruebas para evaluar evaluadores en preguntas y respuestas fundamentadas.

Resumen

La Generación con Recuperación Aumentada (RAG) ha surgido como un paradigma común para utilizar Modelos de Lenguaje Grandes (LLMs) junto con bases de conocimiento privadas y actualizadas. En este trabajo, abordamos los desafíos de utilizar LLM-como-Juez al evaluar respuestas fundamentadas generadas por sistemas RAG. Para evaluar las capacidades de calibración y discriminación de los modelos de juez, identificamos 7 modos de falla del generador e introducimos GroUSE (Puntuación Unitaria de Evaluadores de Preguntas y Respuestas Fundamentadas), un banco de pruebas de metaevaluación de 144 pruebas unitarias. Este banco de pruebas revela que los marcos de evaluación automatizados de RAG existentes a menudo pasan por alto modos de falla importantes, incluso al utilizar GPT-4 como juez. Para mejorar el diseño actual de los marcos de evaluación automatizados de RAG, proponemos un nuevo proceso y descubrimos que si bien los modelos cerrados tienen un buen desempeño en GroUSE, los jueces de código abierto de vanguardia no se generalizan a nuestros criterios propuestos, a pesar de la fuerte correlación con el juicio de GPT-4. Nuestros hallazgos sugieren que la correlación con GPT-4 es un proxy incompleto para el rendimiento práctico de los modelos de juez y debe complementarse con evaluaciones en pruebas unitarias para una detección precisa de modos de falla. Además, demostramos que el ajuste fino de Llama-3 en las trazas de razonamiento de GPT-4 aumenta significativamente sus capacidades de evaluación, mejorando tanto la correlación con las evaluaciones de GPT-4 como la calibración en situaciones de referencia.

English

Retrieval-Augmented Generation (RAG) has emerged as a common paradigm to use Large Language Models (LLMs) alongside private and up-to-date knowledge bases. In this work, we address the challenges of using LLM-as-a-Judge when evaluating grounded answers generated by RAG systems. To assess the calibration and discrimination capabilities of judge models, we identify 7 generator failure modes and introduce GroUSE (Grounded QA Unitary Scoring of Evaluators), a meta-evaluation benchmark of 144 unit tests. This benchmark reveals that existing automated RAG evaluation frameworks often overlook important failure modes, even when using GPT-4 as a judge. To improve on the current design of automated RAG evaluation frameworks, we propose a novel pipeline and find that while closed models perform well on GroUSE, state-of-the-art open-source judges do not generalize to our proposed criteria, despite strong correlation with GPT-4's judgement. Our findings suggest that correlation with GPT-4 is an incomplete proxy for the practical performance of judge models and should be supplemented with evaluations on unit tests for precise failure mode detection. We further show that finetuning Llama-3 on GPT-4's reasoning traces significantly boosts its evaluation capabilities, improving upon both correlation with GPT-4's evaluations and calibration on reference situations.

GroUSE: Un conjunto de pruebas para evaluar evaluadores en preguntas y respuestas fundamentadas.

GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering

Resumen

Support