Schließung der Wissensbewertungslücke: Open-Domain Question Answering mit Antworten auf mehreren Granularitätsebenen

Zusammenfassung

Faktische Fragen können in der Regel auf verschiedenen Detaillierungsstufen korrekt beantwortet werden. Zum Beispiel sind sowohl „4. August 1961“ als auch „1961“ korrekte Antworten auf die Frage „Wann wurde Barack Obama geboren?“. Standardisierte Evaluierungsprotokolle für Frage-Antwort-Systeme (QA) berücksichtigen dies jedoch nicht explizit und vergleichen eine vorhergesagte Antwort nur mit Antworten einer einzigen Detaillierungsstufe. In dieser Arbeit schlagen wir GRANOLA QA vor, eine neuartige Evaluierungsumgebung, in der eine vorhergesagte Antwort hinsichtlich Genauigkeit und Informationsgehalt anhand einer Menge von Antworten mit mehreren Detaillierungsstufen bewertet wird. Wir präsentieren eine einfache Methode zur Anreicherung bestehender Datensätze mit Antworten auf verschiedenen Detaillierungsstufen und erstellen GRANOLA-EQ, eine Version des EntityQuestions-Datensatzes mit mehreren Detaillierungsstufen. Wir evaluieren eine Reihe von Dekodierungsmethoden auf GRANOLA-EQ, darunter einen neuen Algorithmus namens Decoding with Response Aggregation (DRAG), der darauf abzielt, die Antwortdetaillierung mit der Unsicherheit des Modells abzustimmen. Unsere Experimente zeigen, dass große Sprachmodelle mit Standarddekodierung dazu neigen, spezifische Antworten zu generieren, die oft falsch sind. Im Gegensatz dazu führt DRAG bei der Bewertung anhand von Antworten mit mehreren Detaillierungsstufen zu einer durchschnittlichen Steigerung der Genauigkeit um fast 20 Punkte, die bei seltenen Entitäten weiter ansteigt. Insgesamt zeigt dies, dass standardmäßige Evaluierungs- und Dekodierungsschemata das in Sprachmodellen (LMs) enthaltene Wissen möglicherweise erheblich unterschätzen.

English

Factual questions typically can be answered correctly at different levels of granularity. For example, both ``August 4, 1961'' and ``1961'' are correct answers to the question ``When was Barack Obama born?''. Standard question answering (QA) evaluation protocols, however, do not explicitly take this into account and compare a predicted answer against answers of a single granularity level. In this work, we propose GRANOLA QA, a novel evaluation setting where a predicted answer is evaluated in terms of accuracy and informativeness against a set of multi-granularity answers. We present a simple methodology for enriching existing datasets with multi-granularity answers, and create GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm, called Decoding with Response Aggregation (DRAG), that is geared towards aligning the response granularity with the model's uncertainty. Our experiments show that large language models with standard decoding tend to generate specific answers, which are often incorrect. In contrast, when evaluated on multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy on average, which further increases for rare entities. Overall, this reveals that standard evaluation and decoding schemes may significantly underestimate the knowledge encapsulated in LMs.

Schließung der Wissensbewertungslücke: Open-Domain Question Answering mit Antworten auf mehreren Granularitätsebenen

Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers

Zusammenfassung

Support