知識評価のギャップを縮小する:マルチ粒度回答を用いたオープンドメイン質問応答
Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers
January 9, 2024
著者: Gal Yona, Roee Aharoni, Mor Geva
cs.AI
要旨
事実に関する質問は、通常、異なる粒度レベルで正しく答えることが可能です。例えば、「バラク・オバマはいつ生まれたか?」という質問に対して、「1961年8月4日」と「1961年」のどちらも正しい答えとなります。しかし、標準的な質問応答(QA)評価プロトコルでは、これを明示的に考慮せず、単一の粒度レベルの答えと予測された答えを比較します。本研究では、予測された答えを複数の粒度レベルの答えに対して正確性と情報量の観点から評価する新しい評価設定であるGRANOLA QAを提案します。既存のデータセットに複数の粒度レベルの答えを追加するためのシンプルな方法論を提示し、EntityQuestionsデータセットの多粒度バージョンであるGRANOLA-EQを作成します。GRANOLA-EQに対して、新しいアルゴリズムであるDecoding with Response Aggregation(DRAG)を含むさまざまなデコード手法を評価します。DRAGは、応答の粒度をモデルの不確実性に合わせることを目的としています。実験結果から、標準的なデコード手法を用いた大規模言語モデルは、しばしば誤った具体的な答えを生成する傾向があることが示されました。一方、多粒度の答えで評価すると、DRAGは平均で約20ポイントの精度向上をもたらし、特に希少なエンティティに対してはさらに向上します。全体として、標準的な評価およびデコード手法は、言語モデルに内包された知識を大幅に過小評価している可能性があることが明らかになりました。
English
Factual questions typically can be answered correctly at different levels of
granularity. For example, both ``August 4, 1961'' and ``1961'' are correct
answers to the question ``When was Barack Obama born?''. Standard question
answering (QA) evaluation protocols, however, do not explicitly take this into
account and compare a predicted answer against answers of a single granularity
level. In this work, we propose GRANOLA QA, a novel evaluation setting where a
predicted answer is evaluated in terms of accuracy and informativeness against
a set of multi-granularity answers. We present a simple methodology for
enriching existing datasets with multi-granularity answers, and create
GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We
evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm,
called Decoding with Response Aggregation (DRAG), that is geared towards
aligning the response granularity with the model's uncertainty. Our experiments
show that large language models with standard decoding tend to generate
specific answers, which are often incorrect. In contrast, when evaluated on
multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy
on average, which further increases for rare entities. Overall, this reveals
that standard evaluation and decoding schemes may significantly underestimate
the knowledge encapsulated in LMs.