Het Genereren van Benchmarks voor de Evaluatie van Feitelijkheid bij Taalmodellen
Generating Benchmarks for Factuality Evaluation of Language Models
July 13, 2023
Auteurs: Dor Muhlgay, Ori Ram, Inbal Magar, Yoav Levine, Nir Ratner, Yonatan Belinkov, Omri Abend, Kevin Leyton-Brown, Amnon Shashua, Yoav Shoham
cs.AI
Samenvatting
Voordat een taalmodel (LM) binnen een bepaald domein wordt ingezet, is het belangrijk om de neiging om feitelijk onjuiste informatie in dat domein te genereren te meten. Bestaande evaluatiemethoden voor feitelijke generatie richten zich op feiten die uit het LM zelf worden bemonsterd, en beheersen dus niet de set van geëvalueerde feiten, wat kan leiden tot onderrepresentatie van zeldzame en onwaarschijnlijke feiten. Wij stellen FACTOR voor: Factual Assessment via Corpus TransfORmation, een schaalbare aanpak voor het evalueren van de feitelijkheid van LM's. FACTOR transformeert automatisch een feitelijk corpus van belang in een benchmark die de neiging van een LM evalueert om ware feiten uit het corpus te genereren versus vergelijkbare maar onjuiste uitspraken. We gebruiken ons framework om twee benchmarks te creëren: Wiki-FACTOR en News-FACTOR. We tonen aan dat: (i) onze benchmarkscores toenemen met de modelgrootte en verbeteren wanneer het LM wordt aangevuld met retrieval; (ii) de benchmarkscore correleert met perplexiteit, maar de twee metrieken zijn het niet altijd eens over de modelrangschikking; en (iii) wanneer perplexiteit en benchmarkscore niet overeenkomen, de laatste beter de feitelijkheid in open-eindegeneratie weerspiegelt, zoals gemeten door menselijke annotators. We maken onze data en code publiekelijk beschikbaar op https://github.com/AI21Labs/factor.
English
Before deploying a language model (LM) within a given domain, it is important
to measure its tendency to generate factually incorrect information in that
domain. Existing factual generation evaluation methods focus on facts sampled
from the LM itself, and thus do not control the set of evaluated facts and
might under-represent rare and unlikely facts. We propose FACTOR: Factual
Assessment via Corpus TransfORmation, a scalable approach for evaluating LM
factuality. FACTOR automatically transforms a factual corpus of interest into a
benchmark evaluating an LM's propensity to generate true facts from the corpus
vs. similar but incorrect statements. We use our framework to create two
benchmarks: Wiki-FACTOR and News-FACTOR. We show that: (i) our benchmark scores
increase with model size and improve when the LM is augmented with retrieval;
(ii) benchmark score correlates with perplexity, but the two metrics do not
always agree on model ranking; and (iii) when perplexity and benchmark score
disagree, the latter better reflects factuality in open-ended generation, as
measured by human annotators. We make our data and code publicly available in
https://github.com/AI21Labs/factor.