ChatPaper.aiChatPaper

Réduire l'écart dans l'évaluation des connaissances : Réponse à des questions en domaine ouvert avec des réponses à granularité multiple

Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers

January 9, 2024
Auteurs: Gal Yona, Roee Aharoni, Mor Geva
cs.AI

Résumé

Les questions factuelles peuvent généralement être répondues correctement à différents niveaux de granularité. Par exemple, « 4 août 1961 » et « 1961 » sont tous deux des réponses correctes à la question « Quand Barack Obama est-il né ? ». Cependant, les protocoles d'évaluation standard des systèmes de question-réponse (QA) ne prennent pas explicitement cela en compte et comparent une réponse prédite à des réponses d'un seul niveau de granularité. Dans ce travail, nous proposons GRANOLA QA, un nouveau cadre d'évaluation dans lequel une réponse prédite est évaluée en termes de précision et d'informativité par rapport à un ensemble de réponses multi-granularité. Nous présentons une méthodologie simple pour enrichir les jeux de données existants avec des réponses multi-granularité, et créons GRANOLA-EQ, une version multi-granularité du jeu de données EntityQuestions. Nous évaluons une gamme de méthodes de décodage sur GRANOLA-EQ, y compris un nouvel algorithme, appelé Décodage avec Agrégation de Réponses (DRAG), qui vise à aligner la granularité de la réponse avec l'incertitude du modèle. Nos expériences montrent que les grands modèles de langage avec un décodage standard ont tendance à générer des réponses spécifiques, qui sont souvent incorrectes. En revanche, lorsqu'ils sont évalués sur des réponses multi-granularité, DRAG permet une augmentation de près de 20 points en précision en moyenne, qui s'accroît encore pour les entités rares. Globalement, cela révèle que les schémas d'évaluation et de décodage standards peuvent sous-estimer de manière significative les connaissances encapsulées dans les modèles de langage.
English
Factual questions typically can be answered correctly at different levels of granularity. For example, both ``August 4, 1961'' and ``1961'' are correct answers to the question ``When was Barack Obama born?''. Standard question answering (QA) evaluation protocols, however, do not explicitly take this into account and compare a predicted answer against answers of a single granularity level. In this work, we propose GRANOLA QA, a novel evaluation setting where a predicted answer is evaluated in terms of accuracy and informativeness against a set of multi-granularity answers. We present a simple methodology for enriching existing datasets with multi-granularity answers, and create GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm, called Decoding with Response Aggregation (DRAG), that is geared towards aligning the response granularity with the model's uncertainty. Our experiments show that large language models with standard decoding tend to generate specific answers, which are often incorrect. In contrast, when evaluated on multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy on average, which further increases for rare entities. Overall, this reveals that standard evaluation and decoding schemes may significantly underestimate the knowledge encapsulated in LMs.
PDF130December 15, 2024