언어 모델의 사실성 평가를 위한 벤치마크 생성
Generating Benchmarks for Factuality Evaluation of Language Models
July 13, 2023
저자: Dor Muhlgay, Ori Ram, Inbal Magar, Yoav Levine, Nir Ratner, Yonatan Belinkov, Omri Abend, Kevin Leyton-Brown, Amnon Shashua, Yoav Shoham
cs.AI
초록
특정 도메인 내에서 언어 모델(LM)을 배포하기 전에, 해당 도메인에서 사실과 다르거나 잘못된 정보를 생성하는 경향성을 측정하는 것이 중요합니다. 기존의 사실 생성 평가 방법들은 주로 언어 모델 자체에서 샘플링된 사실들에 초점을 맞추기 때문에, 평가 대상 사실 집합을 통제하지 못하며 희귀하거나 발생 가능성이 낮은 사실들을 충분히 반영하지 못할 수 있습니다. 우리는 FACTOR(Factual Assessment via Corpus TransfORmation)를 제안합니다. 이는 언어 모델의 사실성을 평가하기 위한 확장 가능한 접근 방식으로, 관심 있는 사실 코퍼스를 자동으로 변환하여 언어 모델이 해당 코퍼스의 진실된 사실과 유사하지만 잘못된 진술을 생성하는 경향성을 평가하는 벤치마크를 생성합니다. 우리는 이 프레임워크를 사용하여 Wiki-FACTOR와 News-FACTOR라는 두 가지 벤치마크를 구축했습니다. 우리의 연구 결과는 다음과 같습니다: (i) 벤치마크 점수는 모델 크기가 커질수록 증가하며, 언어 모델에 검색 기능을 추가할 때 개선됩니다; (ii) 벤치마크 점수는 복잡도(perplexity)와 상관관계가 있지만, 두 지표가 모델 순위에 대해 항상 일치하는 것은 아닙니다; (iii) 복잡도와 벤치마크 점수가 불일치할 때, 후자가 인간 평가자에 의해 측정된 개방형 생성에서의 사실성을 더 잘 반영합니다. 우리는 데이터와 코드를 https://github.com/AI21Labs/factor에서 공개적으로 제공합니다.
English
Before deploying a language model (LM) within a given domain, it is important
to measure its tendency to generate factually incorrect information in that
domain. Existing factual generation evaluation methods focus on facts sampled
from the LM itself, and thus do not control the set of evaluated facts and
might under-represent rare and unlikely facts. We propose FACTOR: Factual
Assessment via Corpus TransfORmation, a scalable approach for evaluating LM
factuality. FACTOR automatically transforms a factual corpus of interest into a
benchmark evaluating an LM's propensity to generate true facts from the corpus
vs. similar but incorrect statements. We use our framework to create two
benchmarks: Wiki-FACTOR and News-FACTOR. We show that: (i) our benchmark scores
increase with model size and improve when the LM is augmented with retrieval;
(ii) benchmark score correlates with perplexity, but the two metrics do not
always agree on model ranking; and (iii) when perplexity and benchmark score
disagree, the latter better reflects factuality in open-ended generation, as
measured by human annotators. We make our data and code publicly available in
https://github.com/AI21Labs/factor.