Reduciendo la Brecha en la Evaluación del Conocimiento: Respuesta a Preguntas de Dominio Abierto con Respuestas de Multi-Granularidad
Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers
January 9, 2024
Autores: Gal Yona, Roee Aharoni, Mor Geva
cs.AI
Resumen
Las preguntas factuales generalmente pueden responderse correctamente en diferentes niveles de granularidad. Por ejemplo, tanto "4 de agosto de 1961" como "1961" son respuestas correctas a la pregunta "¿Cuándo nació Barack Obama?". Sin embargo, los protocolos estándar de evaluación de sistemas de respuesta a preguntas (QA, por sus siglas en inglés) no tienen en cuenta explícitamente este aspecto y comparan una respuesta predicha con respuestas de un único nivel de granularidad. En este trabajo, proponemos GRANOLA QA, un nuevo enfoque de evaluación en el que una respuesta predicha se evalúa en términos de precisión e informatividad frente a un conjunto de respuestas de múltiples niveles de granularidad. Presentamos una metodología sencilla para enriquecer conjuntos de datos existentes con respuestas de múltiples granularidades, y creamos GRANOLA-EQ, una versión de múltiples granularidades del conjunto de datos EntityQuestions. Evaluamos una variedad de métodos de decodificación en GRANOLA-EQ, incluyendo un nuevo algoritmo llamado Decodificación con Agregación de Respuestas (DRAG, por sus siglas en inglés), que está diseñado para alinear la granularidad de la respuesta con la incertidumbre del modelo. Nuestros experimentos muestran que los modelos de lenguaje grandes con decodificación estándar tienden a generar respuestas específicas, que a menudo son incorrectas. En contraste, cuando se evalúan frente a respuestas de múltiples granularidades, DRAG produce un aumento de casi 20 puntos en precisión en promedio, incrementándose aún más para entidades raras. En general, esto revela que los esquemas estándar de evaluación y decodificación pueden subestimar significativamente el conocimiento encapsulado en los modelos de lenguaje.
English
Factual questions typically can be answered correctly at different levels of
granularity. For example, both ``August 4, 1961'' and ``1961'' are correct
answers to the question ``When was Barack Obama born?''. Standard question
answering (QA) evaluation protocols, however, do not explicitly take this into
account and compare a predicted answer against answers of a single granularity
level. In this work, we propose GRANOLA QA, a novel evaluation setting where a
predicted answer is evaluated in terms of accuracy and informativeness against
a set of multi-granularity answers. We present a simple methodology for
enriching existing datasets with multi-granularity answers, and create
GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We
evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm,
called Decoding with Response Aggregation (DRAG), that is geared towards
aligning the response granularity with the model's uncertainty. Our experiments
show that large language models with standard decoding tend to generate
specific answers, which are often incorrect. In contrast, when evaluated on
multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy
on average, which further increases for rare entities. Overall, this reveals
that standard evaluation and decoding schemes may significantly underestimate
the knowledge encapsulated in LMs.