ChatPaper.aiChatPaper

Het verkleinen van de kennisbeoordelingskloof: Open-domein vraagbeantwoording met antwoorden op meerdere granulariteitsniveaus

Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers

January 9, 2024
Auteurs: Gal Yona, Roee Aharoni, Mor Geva
cs.AI

Samenvatting

Feitelijke vragen kunnen doorgaans correct worden beantwoord op verschillende niveaus van granulariteit. Zo zijn zowel ``4 augustus 1961'' als ``1961'' correcte antwoorden op de vraag ``Wanneer is Barack Obama geboren?''. Standaard evaluatieprotocollen voor vraagbeantwoording (QA) houden hier echter geen expliciet rekening mee en vergelijken een voorspeld antwoord met antwoorden van één granulariteitsniveau. In dit werk stellen we GRANOLA QA voor, een nieuwe evaluatie-instelling waarin een voorspeld antwoord wordt beoordeeld op nauwkeurigheid en informatiefheid tegenover een set van antwoorden met meerdere granulariteitsniveaus. We presenteren een eenvoudige methodologie om bestaande datasets te verrijken met antwoorden van meerdere granulariteitsniveaus, en creëren GRANOLA-EQ, een multi-granulariteitsversie van de EntityQuestions-dataset. We evalueren een reeks decodeermethoden op GRANOLA-EQ, waaronder een nieuw algoritme, genaamd Decoding with Response Aggregation (DRAG), dat gericht is op het afstemmen van de granulariteit van het antwoord op de onzekerheid van het model. Onze experimenten tonen aan dat grote taalmodellen met standaard decodeermethoden de neiging hebben om specifieke antwoorden te genereren, die vaak incorrect zijn. Daarentegen levert DRAG, wanneer geëvalueerd op antwoorden met meerdere granulariteitsniveaus, een gemiddelde stijging van bijna 20 punten in nauwkeurigheid op, wat verder toeneemt voor zeldzame entiteiten. Over het geheel genomen laat dit zien dat standaard evaluatie- en decodeerschema's de kennis die in taalmodellen is ingekapseld, mogelijk aanzienlijk onderschatten.
English
Factual questions typically can be answered correctly at different levels of granularity. For example, both ``August 4, 1961'' and ``1961'' are correct answers to the question ``When was Barack Obama born?''. Standard question answering (QA) evaluation protocols, however, do not explicitly take this into account and compare a predicted answer against answers of a single granularity level. In this work, we propose GRANOLA QA, a novel evaluation setting where a predicted answer is evaluated in terms of accuracy and informativeness against a set of multi-granularity answers. We present a simple methodology for enriching existing datasets with multi-granularity answers, and create GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm, called Decoding with Response Aggregation (DRAG), that is geared towards aligning the response granularity with the model's uncertainty. Our experiments show that large language models with standard decoding tend to generate specific answers, which are often incorrect. In contrast, when evaluated on multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy on average, which further increases for rare entities. Overall, this reveals that standard evaluation and decoding schemes may significantly underestimate the knowledge encapsulated in LMs.
PDF130December 15, 2024