Precisão factual em textos extensos em modelos de linguagem de grande escala
Long-form factuality in large language models
March 27, 2024
Autores: Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) frequentemente geram conteúdo que contém erros factuais ao responder a prompts que buscam fatos sobre tópicos de natureza aberta. Para avaliar a factualidade de longo prazo de um modelo em domínios abertos, primeiro utilizamos o GPT-4 para gerar o LongFact, um conjunto de prompts composto por milhares de perguntas abrangendo 38 tópicos. Em seguida, propomos que agentes baseados em LLMs podem ser usados como avaliadores automatizados de factualidade de longo prazo por meio de um método que chamamos de Avaliador de Factualidade Aumentado por Busca (SAFE, na sigla em inglês). O SAFE utiliza um LLM para decompor uma resposta de longo prazo em um conjunto de fatos individuais e avaliar a precisão de cada fato usando um processo de raciocínio em múltiplas etapas, que inclui o envio de consultas de busca ao Google Search e a determinação de se um fato é suportado pelos resultados da busca. Além disso, propomos estender a métrica F1 como uma medida agregada para factualidade de longo prazo. Para isso, equilibramos a porcentagem de fatos suportados em uma resposta (precisão) com a porcentagem de fatos fornecidos em relação a um hiperparâmetro que representa o comprimento preferido da resposta pelo usuário (recall).
Empiricamente, demonstramos que agentes baseados em LLMs podem alcançar desempenho de avaliação sobre-humano - em um conjunto de ~16 mil fatos individuais, o SAFE concorda com anotadores humanos crowdsourced 72% das vezes, e em um subconjunto aleatório de 100 casos de discordância, o SAFE vence 76% das vezes. Ao mesmo tempo, o SAFE é mais de 20 vezes mais barato do que anotadores humanos. Também avaliamos treze modelos de linguagem no LongFact em quatro famílias de modelos (Gemini, GPT, Claude e PaLM-2), descobrindo que modelos de linguagem maiores geralmente alcançam melhor factualidade de longo prazo. O LongFact, o SAFE e todo o código experimental estão disponíveis em https://github.com/google-deepmind/long-form-factuality.
English
Large language models (LLMs) often generate content that contains factual
errors when responding to fact-seeking prompts on open-ended topics. To
benchmark a model's long-form factuality in open domains, we first use GPT-4 to
generate LongFact, a prompt set comprising thousands of questions spanning 38
topics. We then propose that LLM agents can be used as automated evaluators for
long-form factuality through a method which we call Search-Augmented Factuality
Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into
a set of individual facts and to evaluate the accuracy of each fact using a
multi-step reasoning process comprising sending search queries to Google Search
and determining whether a fact is supported by the search results. Furthermore,
we propose extending F1 score as an aggregated metric for long-form factuality.
To do so, we balance the percentage of supported facts in a response
(precision) with the percentage of provided facts relative to a hyperparameter
representing a user's preferred response length (recall).
Empirically, we demonstrate that LLM agents can achieve superhuman rating
performance - on a set of ~16k individual facts, SAFE agrees with crowdsourced
human annotators 72% of the time, and on a random subset of 100 disagreement
cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times
cheaper than human annotators. We also benchmark thirteen language models on
LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding
that larger language models generally achieve better long-form factuality.
LongFact, SAFE, and all experimental code are available at
https://github.com/google-deepmind/long-form-factuality.