Precisión factual en textos extensos en modelos de lenguaje a gran escala

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen generar contenido que contiene errores factuales al responder a solicitudes de búsqueda de hechos sobre temas de carácter abierto. Para evaluar la factualidad a largo plazo de un modelo en dominios abiertos, primero utilizamos GPT-4 para generar LongFact, un conjunto de preguntas que abarca miles de cuestiones en 38 temas. Luego, proponemos que los agentes basados en LLMs pueden utilizarse como evaluadores automatizados de la factualidad en formato extenso mediante un método que denominamos Evaluador de Factualidad Aumentado por Búsqueda (SAFE, por sus siglas en inglés). SAFE emplea un LLM para descomponer una respuesta extensa en un conjunto de hechos individuales y evaluar la precisión de cada hecho mediante un proceso de razonamiento de múltiples pasos que incluye enviar consultas de búsqueda a Google Search y determinar si un hecho está respaldado por los resultados de la búsqueda. Además, proponemos extender la puntuación F1 como una métrica agregada para la factualidad en formato extenso. Para ello, equilibramos el porcentaje de hechos respaldados en una respuesta (precisión) con el porcentaje de hechos proporcionados en relación con un hiperparámetro que representa la longitud de respuesta preferida por el usuario (recall). Empíricamente, demostramos que los agentes basados en LLMs pueden alcanzar un rendimiento de evaluación superior al humano: en un conjunto de ~16k hechos individuales, SAFE coincide con anotadores humanos reclutados mediante crowdsourcing el 72% de las veces, y en un subconjunto aleatorio de 100 casos de desacuerdo, SAFE gana el 76% de las veces. Al mismo tiempo, SAFE es más de 20 veces más económico que los anotadores humanos. También evaluamos trece modelos de lenguaje en LongFact, abarcando cuatro familias de modelos (Gemini, GPT, Claude y PaLM-2), y encontramos que los modelos de lenguaje más grandes generalmente logran una mejor factualidad en formato extenso. LongFact, SAFE y todo el código experimental están disponibles en https://github.com/google-deepmind/long-form-factuality.

English

Large language models (LLMs) often generate content that contains factual errors when responding to fact-seeking prompts on open-ended topics. To benchmark a model's long-form factuality in open domains, we first use GPT-4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results. Furthermore, we propose extending F1 score as an aggregated metric for long-form factuality. To do so, we balance the percentage of supported facts in a response (precision) with the percentage of provided facts relative to a hyperparameter representing a user's preferred response length (recall). Empirically, we demonstrate that LLM agents can achieve superhuman rating performance - on a set of ~16k individual facts, SAFE agrees with crowdsourced human annotators 72% of the time, and on a random subset of 100 disagreement cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times cheaper than human annotators. We also benchmark thirteen language models on LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding that larger language models generally achieve better long-form factuality. LongFact, SAFE, and all experimental code are available at https://github.com/google-deepmind/long-form-factuality.

Precisión factual en textos extensos en modelos de lenguaje a gran escala

Long-form factuality in large language models

Resumen

Support