Veridicità a lungo termine nei modelli linguistici di grandi dimensioni

Abstract

I grandi modelli linguistici (LLM) spesso generano contenuti che contengono errori fattuali quando rispondono a prompt che cercano fatti su argomenti aperti. Per valutare la fattualità a lungo termine di un modello in domini aperti, utilizziamo prima GPT-4 per generare LongFact, un set di prompt composto da migliaia di domande che coprono 38 argomenti. Proponiamo quindi che gli agenti LLM possano essere utilizzati come valutatori automatizzati per la fattualità a lungo termine attraverso un metodo che chiamiamo Search-Augmented Factuality Evaluator (SAFE). SAFE utilizza un LLM per suddividere una risposta a lungo termine in un insieme di fatti individuali e per valutare l'accuratezza di ciascun fatto attraverso un processo di ragionamento in più fasi che comprende l'invio di query di ricerca a Google Search e la determinazione se un fatto sia supportato dai risultati della ricerca. Inoltre, proponiamo di estendere il punteggio F1 come metrica aggregata per la fattualità a lungo termine. Per fare ciò, bilanciamo la percentuale di fatti supportati in una risposta (precisione) con la percentuale di fatti forniti rispetto a un iperparametro che rappresenta la lunghezza preferita della risposta da parte dell'utente (richiamo). Empiricamente, dimostriamo che gli agenti LLM possono raggiungere prestazioni di valutazione sovrumane: su un insieme di ~16k fatti individuali, SAFE concorda con annotatori umani crowdsourced il 72% delle volte, e su un sottoinsieme casuale di 100 casi di disaccordo, SAFE vince il 76% delle volte. Allo stesso tempo, SAFE è più di 20 volte più economico rispetto agli annotatori umani. Abbiamo anche valutato tredici modelli linguistici su LongFact in quattro famiglie di modelli (Gemini, GPT, Claude e PaLM-2), riscontrando che i modelli linguistici più grandi generalmente raggiungono una migliore fattualità a lungo termine. LongFact, SAFE e tutto il codice sperimentale sono disponibili su https://github.com/google-deepmind/long-form-factuality.

English

Large language models (LLMs) often generate content that contains factual errors when responding to fact-seeking prompts on open-ended topics. To benchmark a model's long-form factuality in open domains, we first use GPT-4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results. Furthermore, we propose extending F1 score as an aggregated metric for long-form factuality. To do so, we balance the percentage of supported facts in a response (precision) with the percentage of provided facts relative to a hyperparameter representing a user's preferred response length (recall). Empirically, we demonstrate that LLM agents can achieve superhuman rating performance - on a set of ~16k individual facts, SAFE agrees with crowdsourced human annotators 72% of the time, and on a random subset of 100 disagreement cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times cheaper than human annotators. We also benchmark thirteen language models on LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding that larger language models generally achieve better long-form factuality. LongFact, SAFE, and all experimental code are available at https://github.com/google-deepmind/long-form-factuality.

Veridicità a lungo termine nei modelli linguistici di grandi dimensioni

Long-form factuality in large language models

Abstract

Support