Precisión factual en textos extensos en modelos de lenguaje a gran escala
Long-form factuality in large language models
March 27, 2024
Autores: Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen generar contenido que contiene errores factuales al responder a solicitudes de búsqueda de hechos sobre temas de carácter abierto. Para evaluar la factualidad a largo plazo de un modelo en dominios abiertos, primero utilizamos GPT-4 para generar LongFact, un conjunto de preguntas que abarca miles de cuestiones en 38 temas. Luego, proponemos que los agentes basados en LLMs pueden utilizarse como evaluadores automatizados de la factualidad en formato extenso mediante un método que denominamos Evaluador de Factualidad Aumentado por Búsqueda (SAFE, por sus siglas en inglés). SAFE emplea un LLM para descomponer una respuesta extensa en un conjunto de hechos individuales y evaluar la precisión de cada hecho mediante un proceso de razonamiento de múltiples pasos que incluye enviar consultas de búsqueda a Google Search y determinar si un hecho está respaldado por los resultados de la búsqueda. Además, proponemos extender la puntuación F1 como una métrica agregada para la factualidad en formato extenso. Para ello, equilibramos el porcentaje de hechos respaldados en una respuesta (precisión) con el porcentaje de hechos proporcionados en relación con un hiperparámetro que representa la longitud de respuesta preferida por el usuario (recall).
Empíricamente, demostramos que los agentes basados en LLMs pueden alcanzar un rendimiento de evaluación superior al humano: en un conjunto de ~16k hechos individuales, SAFE coincide con anotadores humanos reclutados mediante crowdsourcing el 72% de las veces, y en un subconjunto aleatorio de 100 casos de desacuerdo, SAFE gana el 76% de las veces. Al mismo tiempo, SAFE es más de 20 veces más económico que los anotadores humanos. También evaluamos trece modelos de lenguaje en LongFact, abarcando cuatro familias de modelos (Gemini, GPT, Claude y PaLM-2), y encontramos que los modelos de lenguaje más grandes generalmente logran una mejor factualidad en formato extenso. LongFact, SAFE y todo el código experimental están disponibles en https://github.com/google-deepmind/long-form-factuality.
English
Large language models (LLMs) often generate content that contains factual
errors when responding to fact-seeking prompts on open-ended topics. To
benchmark a model's long-form factuality in open domains, we first use GPT-4 to
generate LongFact, a prompt set comprising thousands of questions spanning 38
topics. We then propose that LLM agents can be used as automated evaluators for
long-form factuality through a method which we call Search-Augmented Factuality
Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into
a set of individual facts and to evaluate the accuracy of each fact using a
multi-step reasoning process comprising sending search queries to Google Search
and determining whether a fact is supported by the search results. Furthermore,
we propose extending F1 score as an aggregated metric for long-form factuality.
To do so, we balance the percentage of supported facts in a response
(precision) with the percentage of provided facts relative to a hyperparameter
representing a user's preferred response length (recall).
Empirically, we demonstrate that LLM agents can achieve superhuman rating
performance - on a set of ~16k individual facts, SAFE agrees with crowdsourced
human annotators 72% of the time, and on a random subset of 100 disagreement
cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times
cheaper than human annotators. We also benchmark thirteen language models on
LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding
that larger language models generally achieve better long-form factuality.
LongFact, SAFE, and all experimental code are available at
https://github.com/google-deepmind/long-form-factuality.Summary
AI-Generated Summary