Schließung der Wissensbewertungslücke: Open-Domain Question Answering mit Antworten auf mehreren Granularitätsebenen
Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers
January 9, 2024
Autoren: Gal Yona, Roee Aharoni, Mor Geva
cs.AI
Zusammenfassung
Faktische Fragen können in der Regel auf verschiedenen Detaillierungsstufen korrekt beantwortet werden. Zum Beispiel sind sowohl „4. August 1961“ als auch „1961“ korrekte Antworten auf die Frage „Wann wurde Barack Obama geboren?“. Standardisierte Evaluierungsprotokolle für Frage-Antwort-Systeme (QA) berücksichtigen dies jedoch nicht explizit und vergleichen eine vorhergesagte Antwort nur mit Antworten einer einzigen Detaillierungsstufe. In dieser Arbeit schlagen wir GRANOLA QA vor, eine neuartige Evaluierungsumgebung, in der eine vorhergesagte Antwort hinsichtlich Genauigkeit und Informationsgehalt anhand einer Menge von Antworten mit mehreren Detaillierungsstufen bewertet wird. Wir präsentieren eine einfache Methode zur Anreicherung bestehender Datensätze mit Antworten auf verschiedenen Detaillierungsstufen und erstellen GRANOLA-EQ, eine Version des EntityQuestions-Datensatzes mit mehreren Detaillierungsstufen. Wir evaluieren eine Reihe von Dekodierungsmethoden auf GRANOLA-EQ, darunter einen neuen Algorithmus namens Decoding with Response Aggregation (DRAG), der darauf abzielt, die Antwortdetaillierung mit der Unsicherheit des Modells abzustimmen. Unsere Experimente zeigen, dass große Sprachmodelle mit Standarddekodierung dazu neigen, spezifische Antworten zu generieren, die oft falsch sind. Im Gegensatz dazu führt DRAG bei der Bewertung anhand von Antworten mit mehreren Detaillierungsstufen zu einer durchschnittlichen Steigerung der Genauigkeit um fast 20 Punkte, die bei seltenen Entitäten weiter ansteigt. Insgesamt zeigt dies, dass standardmäßige Evaluierungs- und Dekodierungsschemata das in Sprachmodellen (LMs) enthaltene Wissen möglicherweise erheblich unterschätzen.
English
Factual questions typically can be answered correctly at different levels of
granularity. For example, both ``August 4, 1961'' and ``1961'' are correct
answers to the question ``When was Barack Obama born?''. Standard question
answering (QA) evaluation protocols, however, do not explicitly take this into
account and compare a predicted answer against answers of a single granularity
level. In this work, we propose GRANOLA QA, a novel evaluation setting where a
predicted answer is evaluated in terms of accuracy and informativeness against
a set of multi-granularity answers. We present a simple methodology for
enriching existing datasets with multi-granularity answers, and create
GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We
evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm,
called Decoding with Response Aggregation (DRAG), that is geared towards
aligning the response granularity with the model's uncertainty. Our experiments
show that large language models with standard decoding tend to generate
specific answers, which are often incorrect. In contrast, when evaluated on
multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy
on average, which further increases for rare entities. Overall, this reveals
that standard evaluation and decoding schemes may significantly underestimate
the knowledge encapsulated in LMs.