Precisão factual em textos extensos em modelos de linguagem de grande escala

Resumo

Grandes modelos de linguagem (LLMs) frequentemente geram conteúdo que contém erros factuais ao responder a prompts que buscam fatos sobre tópicos de natureza aberta. Para avaliar a factualidade de longo prazo de um modelo em domínios abertos, primeiro utilizamos o GPT-4 para gerar o LongFact, um conjunto de prompts composto por milhares de perguntas abrangendo 38 tópicos. Em seguida, propomos que agentes baseados em LLMs podem ser usados como avaliadores automatizados de factualidade de longo prazo por meio de um método que chamamos de Avaliador de Factualidade Aumentado por Busca (SAFE, na sigla em inglês). O SAFE utiliza um LLM para decompor uma resposta de longo prazo em um conjunto de fatos individuais e avaliar a precisão de cada fato usando um processo de raciocínio em múltiplas etapas, que inclui o envio de consultas de busca ao Google Search e a determinação de se um fato é suportado pelos resultados da busca. Além disso, propomos estender a métrica F1 como uma medida agregada para factualidade de longo prazo. Para isso, equilibramos a porcentagem de fatos suportados em uma resposta (precisão) com a porcentagem de fatos fornecidos em relação a um hiperparâmetro que representa o comprimento preferido da resposta pelo usuário (recall). Empiricamente, demonstramos que agentes baseados em LLMs podem alcançar desempenho de avaliação sobre-humano - em um conjunto de ~16 mil fatos individuais, o SAFE concorda com anotadores humanos crowdsourced 72% das vezes, e em um subconjunto aleatório de 100 casos de discordância, o SAFE vence 76% das vezes. Ao mesmo tempo, o SAFE é mais de 20 vezes mais barato do que anotadores humanos. Também avaliamos treze modelos de linguagem no LongFact em quatro famílias de modelos (Gemini, GPT, Claude e PaLM-2), descobrindo que modelos de linguagem maiores geralmente alcançam melhor factualidade de longo prazo. O LongFact, o SAFE e todo o código experimental estão disponíveis em https://github.com/google-deepmind/long-form-factuality.

English

Large language models (LLMs) often generate content that contains factual errors when responding to fact-seeking prompts on open-ended topics. To benchmark a model's long-form factuality in open domains, we first use GPT-4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results. Furthermore, we propose extending F1 score as an aggregated metric for long-form factuality. To do so, we balance the percentage of supported facts in a response (precision) with the percentage of provided facts relative to a hyperparameter representing a user's preferred response length (recall). Empirically, we demonstrate that LLM agents can achieve superhuman rating performance - on a set of ~16k individual facts, SAFE agrees with crowdsourced human annotators 72% of the time, and on a random subset of 100 disagreement cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times cheaper than human annotators. We also benchmark thirteen language models on LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding that larger language models generally achieve better long-form factuality. LongFact, SAFE, and all experimental code are available at https://github.com/google-deepmind/long-form-factuality.

Precisão factual em textos extensos em modelos de linguagem de grande escala

Long-form factuality in large language models

Resumo

Support