ChatPaper.aiChatPaper

Langetermijnnauwkeurigheid in grote taalmodelle

Long-form factuality in large language models

March 27, 2024
Auteurs: Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le
cs.AI

Samenvatting

Grote taalmodellen (LLM's) genereren vaak inhoud die feitelijke fouten bevat wanneer ze reageren op feitenzoekende prompts over open-einde onderwerpen. Om de feitelijkheid van lange teksten van een model in open domeinen te benchmarken, gebruiken we eerst GPT-4 om LongFact te genereren, een promptset die duizenden vragen omvat over 38 onderwerpen. Vervolgens stellen we voor dat LLM-agenten kunnen worden gebruikt als geautomatiseerde evaluatoren voor de feitelijkheid van lange teksten via een methode die we Search-Augmented Factuality Evaluator (SAFE) noemen. SAFE maakt gebruik van een LLM om een lange tekstreactie op te splitsen in een reeks individuele feiten en om de nauwkeurigheid van elk feit te evalueren via een meerstaps redeneerproces dat bestaat uit het versturen van zoekopdrachten naar Google Search en het bepalen of een feit wordt ondersteund door de zoekresultaten. Bovendien stellen we voor om de F1-score uit te breiden als een geaggregeerde metriek voor de feitelijkheid van lange teksten. Hiervoor balanceren we het percentage ondersteunde feiten in een reactie (precisie) met het percentage geleverde feiten ten opzichte van een hyperparameter die de gewenste reactielengte van een gebruiker vertegenwoordigt (recall). Empirisch tonen we aan dat LLM-agenten bovennatuurlijke beoordelingsprestaties kunnen bereiken – op een set van ~16k individuele feiten is SAFE het 72% van de tijd eens met door crowdsourcing verkregen menselijke annotators, en op een willekeurige subset van 100 gevallen van meningsverschil wint SAFE 76% van de tijd. Tegelijkertijd is SAFE meer dan 20 keer goedkoper dan menselijke annotators. We benchmarken ook dertien taalmodellen op LongFact over vier modelfamilies (Gemini, GPT, Claude en PaLM-2), waarbij we vaststellen dat grotere taalmodellen over het algemeen betere feitelijkheid van lange teksten bereiken. LongFact, SAFE en alle experimentele code zijn beschikbaar op https://github.com/google-deepmind/long-form-factuality.
English
Large language models (LLMs) often generate content that contains factual errors when responding to fact-seeking prompts on open-ended topics. To benchmark a model's long-form factuality in open domains, we first use GPT-4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results. Furthermore, we propose extending F1 score as an aggregated metric for long-form factuality. To do so, we balance the percentage of supported facts in a response (precision) with the percentage of provided facts relative to a hyperparameter representing a user's preferred response length (recall). Empirically, we demonstrate that LLM agents can achieve superhuman rating performance - on a set of ~16k individual facts, SAFE agrees with crowdsourced human annotators 72% of the time, and on a random subset of 100 disagreement cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times cheaper than human annotators. We also benchmark thirteen language models on LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding that larger language models generally achieve better long-form factuality. LongFact, SAFE, and all experimental code are available at https://github.com/google-deepmind/long-form-factuality.
PDF262February 8, 2026