ChatPaper.aiChatPaper

지식 평가 격차 축소: 다중 세분성 답변을 활용한 개방형 도메인 질의응답

Narrowing the Knowledge Evaluation Gap: Open-Domain Question Answering with Multi-Granularity Answers

January 9, 2024
저자: Gal Yona, Roee Aharoni, Mor Geva
cs.AI

초록

사실적 질문은 일반적으로 다양한 세분성 수준에서 정확하게 답변될 수 있다. 예를 들어, "버락 오바마는 언제 태어났는가?"라는 질문에 대해 "1961년 8월 4일"과 "1961년" 모두 정답으로 간주될 수 있다. 그러나 표준 질문 응답(QA) 평가 프로토콜은 이를 명시적으로 고려하지 않고 단일 세분성 수준의 답변과 예측된 답변을 비교한다. 본 연구에서는 예측된 답변을 다중 세분성 답변 집합에 대해 정확성과 정보성을 기준으로 평가하는 새로운 평가 설정인 GRANOLA QA를 제안한다. 우리는 기존 데이터셋을 다중 세분성 답변으로 확장하는 간단한 방법론을 제시하고, EntityQuestions 데이터셋의 다중 세분성 버전인 GRANOLA-EQ를 생성한다. 우리는 GRANOLA-EQ에서 다양한 디코딩 방법을 평가하며, 모델의 불확실성과 응답 세분성을 맞추기 위해 설계된 새로운 알고리즘인 Decoding with Response Aggregation (DRAG)을 포함한다. 실험 결과, 표준 디코딩을 사용한 대형 언어 모델은 종종 특정한 답변을 생성하지만 이는 자주 오답인 것으로 나타났다. 반면, 다중 세분성 답변에 대해 평가할 때 DRAG는 평균적으로 약 20점의 정확도 향상을 보였으며, 이는 희귀 개체에 대해 더욱 증가했다. 전반적으로, 이는 표준 평가 및 디코딩 방식이 언어 모델에 내재된 지식을 상당히 과소평가할 수 있음을 보여준다.
English
Factual questions typically can be answered correctly at different levels of granularity. For example, both ``August 4, 1961'' and ``1961'' are correct answers to the question ``When was Barack Obama born?''. Standard question answering (QA) evaluation protocols, however, do not explicitly take this into account and compare a predicted answer against answers of a single granularity level. In this work, we propose GRANOLA QA, a novel evaluation setting where a predicted answer is evaluated in terms of accuracy and informativeness against a set of multi-granularity answers. We present a simple methodology for enriching existing datasets with multi-granularity answers, and create GRANOLA-EQ, a multi-granularity version of the EntityQuestions dataset. We evaluate a range of decoding methods on GRANOLA-EQ, including a new algorithm, called Decoding with Response Aggregation (DRAG), that is geared towards aligning the response granularity with the model's uncertainty. Our experiments show that large language models with standard decoding tend to generate specific answers, which are often incorrect. In contrast, when evaluated on multi-granularity answers, DRAG yields a nearly 20 point increase in accuracy on average, which further increases for rare entities. Overall, this reveals that standard evaluation and decoding schemes may significantly underestimate the knowledge encapsulated in LMs.
PDF130December 15, 2024