Réduire l'écart dans l'évaluation des connaissances : Réponse à des questions en domaine ouvert avec des réponses à granularité multiple
Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers
January 9, 2024
Auteurs: Gal Yona, Roee Aharoni, Mor Geva
cs.AI
Résumé
Les questions factuelles peuvent généralement être répondues correctement à différents niveaux de granularité. Par exemple, « 4 août 1961 » et « 1961 » sont tous deux des réponses correctes à la question « Quand Barack Obama est-il né ? ». Cependant, les protocoles d'évaluation standard des systèmes de question-réponse (QA) ne prennent pas explicitement cela en compte et comparent une réponse prédite à des réponses d'un seul niveau de granularité. Dans ce travail, nous proposons GRANOLA QA, un nouveau cadre d'évaluation dans lequel une réponse prédite est évaluée en termes de précision et d'informativité par rapport à un ensemble de réponses multi-granularité. Nous présentons une méthodologie simple pour enrichir les jeux de données existants avec des réponses multi-granularité, et créons GRANOLA-EQ, une version multi-granularité du jeu de données EntityQuestions. Nous évaluons une gamme de méthodes de décodage sur GRANOLA-EQ, y compris un nouvel algorithme, appelé Décodage avec Agrégation de Réponses (DRAG), qui vise à aligner la granularité de la réponse avec l'incertitude du modèle. Nos expériences montrent que les grands modèles de langage avec un décodage standard ont tendance à générer des réponses spécifiques, qui sont souvent incorrectes. En revanche, lorsqu'ils sont évalués sur des réponses multi-granularité, DRAG permet une augmentation de près de 20 points en précision en moyenne, qui s'accroît encore pour les entités rares. Globalement, cela révèle que les schémas d'évaluation et de décodage standards peuvent sous-estimer de manière significative les connaissances encapsulées dans les modèles de langage.
English
Factual questions typically can be answered correctly at different levels of
granularity. For example, both ``August 4, 1961'' and ``1961'' are correct
answers to the question ``When was Barack Obama born?''. Standard question
answering (QA) evaluation protocols, however, do not explicitly take this into
account and compare a predicted answer against answers of a single granularity
level. In this work, we propose GRANOLA QA, a novel evaluation setting where a
predicted answer is evaluated in terms of accuracy and informativeness against
a set of multi-granularity answers. We present a simple methodology for
enriching existing datasets with multi-granularity answers, and create
GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We
evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm,
called Decoding with Response Aggregation (DRAG), that is geared towards
aligning the response granularity with the model's uncertainty. Our experiments
show that large language models with standard decoding tend to generate
specific answers, which are often incorrect. In contrast, when evaluated on
multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy
on average, which further increases for rare entities. Overall, this reveals
that standard evaluation and decoding schemes may significantly underestimate
the knowledge encapsulated in LMs.