Het Genereren van Benchmarks voor de Evaluatie van Feitelijkheid bij Taalmodellen

Samenvatting

Voordat een taalmodel (LM) binnen een bepaald domein wordt ingezet, is het belangrijk om de neiging om feitelijk onjuiste informatie in dat domein te genereren te meten. Bestaande evaluatiemethoden voor feitelijke generatie richten zich op feiten die uit het LM zelf worden bemonsterd, en beheersen dus niet de set van geëvalueerde feiten, wat kan leiden tot onderrepresentatie van zeldzame en onwaarschijnlijke feiten. Wij stellen FACTOR voor: Factual Assessment via Corpus TransfORmation, een schaalbare aanpak voor het evalueren van de feitelijkheid van LM's. FACTOR transformeert automatisch een feitelijk corpus van belang in een benchmark die de neiging van een LM evalueert om ware feiten uit het corpus te genereren versus vergelijkbare maar onjuiste uitspraken. We gebruiken ons framework om twee benchmarks te creëren: Wiki-FACTOR en News-FACTOR. We tonen aan dat: (i) onze benchmarkscores toenemen met de modelgrootte en verbeteren wanneer het LM wordt aangevuld met retrieval; (ii) de benchmarkscore correleert met perplexiteit, maar de twee metrieken zijn het niet altijd eens over de modelrangschikking; en (iii) wanneer perplexiteit en benchmarkscore niet overeenkomen, de laatste beter de feitelijkheid in open-eindegeneratie weerspiegelt, zoals gemeten door menselijke annotators. We maken onze data en code publiekelijk beschikbaar op https://github.com/AI21Labs/factor.

English

Before deploying a language model (LM) within a given domain, it is important to measure its tendency to generate factually incorrect information in that domain. Existing factual generation evaluation methods focus on facts sampled from the LM itself, and thus do not control the set of evaluated facts and might under-represent rare and unlikely facts. We propose FACTOR: Factual Assessment via Corpus TransfORmation, a scalable approach for evaluating LM factuality. FACTOR automatically transforms a factual corpus of interest into a benchmark evaluating an LM's propensity to generate true facts from the corpus vs. similar but incorrect statements. We use our framework to create two benchmarks: Wiki-FACTOR and News-FACTOR. We show that: (i) our benchmark scores increase with model size and improve when the LM is augmented with retrieval; (ii) benchmark score correlates with perplexity, but the two metrics do not always agree on model ranking; and (iii) when perplexity and benchmark score disagree, the latter better reflects factuality in open-ended generation, as measured by human annotators. We make our data and code publicly available in https://github.com/AI21Labs/factor.

Het Genereren van Benchmarks voor de Evaluatie van Feitelijkheid bij Taalmodellen

Generating Benchmarks for Factuality Evaluation of Language Models

Samenvatting

Support