ChatPaper.aiChatPaper

Langform-Faktizität in großen Sprachmodellen

Long-form factuality in large language models

March 27, 2024
Autoren: Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) generieren häufig Inhalte mit sachlichen Fehlern, wenn sie auf Fakten suchende Anfragen zu offenen Themen beantworten. Um die faktische Genauigkeit eines Modells in offenen Bereichen zu bewerten, verwenden wir zunächst GPT-4, um LongFact zu generieren, einen Satz von Anfragen, der Tausende von Fragen zu 38 Themen umfasst. Wir schlagen vor, dass LLM-Agenten als automatisierte Evaluatoren für faktische Genauigkeit in Langform durch eine Methode namens Search-Augmented Factuality Evaluator (SAFE) verwendet werden können. SAFE nutzt ein LLM, um eine Langform-Antwort in eine Reihe einzelner Fakten zu zerlegen und die Genauigkeit jedes Fakts mithilfe eines mehrstufigen Denkprozesses zu bewerten, der das Senden von Suchanfragen an Google Search und die Bestimmung, ob ein Fakt durch die Suchergebnisse gestützt wird, umfasst. Darüber hinaus schlagen wir vor, den F1-Score als aggregierte Metrik für faktische Genauigkeit in Langform zu erweitern. Dazu balancieren wir den Prozentsatz der gestützten Fakten in einer Antwort (Präzision) mit dem Prozentsatz der bereitgestellten Fakten im Verhältnis zu einem Hyperparameter, der die bevorzugte Antwortlänge eines Benutzers darstellt (Erinnerung). Empirisch zeigen wir, dass LLM-Agenten eine übermenschliche Bewertungsleistung erreichen können - bei einem Satz von ~16k einzelnen Fakten stimmt SAFE in 72% der Fälle mit crowdsourcenden menschlichen Annotatoren überein, und in einer zufälligen Teilmenge von 100 Meinungsverschiedenheiten gewinnt SAFE 76% der Zeit. Gleichzeitig ist SAFE mehr als 20 Mal kostengünstiger als menschliche Annotatoren. Wir benchmarken auch dreizehn Sprachmodelle auf LongFact in vier Modellfamilien (Gemini, GPT, Claude und PaLM-2) und stellen fest, dass größere Sprachmodelle im Allgemeinen eine bessere faktische Genauigkeit in Langform erreichen. LongFact, SAFE und der gesamte experimentelle Code sind verfügbar unter https://github.com/google-deepmind/long-form-factuality.
English
Large language models (LLMs) often generate content that contains factual errors when responding to fact-seeking prompts on open-ended topics. To benchmark a model's long-form factuality in open domains, we first use GPT-4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results. Furthermore, we propose extending F1 score as an aggregated metric for long-form factuality. To do so, we balance the percentage of supported facts in a response (precision) with the percentage of provided facts relative to a hyperparameter representing a user's preferred response length (recall). Empirically, we demonstrate that LLM agents can achieve superhuman rating performance - on a set of ~16k individual facts, SAFE agrees with crowdsourced human annotators 72% of the time, and on a random subset of 100 disagreement cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times cheaper than human annotators. We also benchmark thirteen language models on LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding that larger language models generally achieve better long-form factuality. LongFact, SAFE, and all experimental code are available at https://github.com/google-deepmind/long-form-factuality.

Summary

AI-Generated Summary

PDF262December 15, 2024