Vertrauenswürdige Quellenausrichtung in großen Sprachmodellen
Trusted Source Alignment in Large Language Models
November 12, 2023
Autoren: Vasilisa Bashlovkina, Zhaobin Kuang, Riley Matthews, Edward Clifford, Yennie Jun, William W. Cohen, Simon Baumgartner
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden auf Web-großen Korpora trainiert, die zwangsläufig widersprüchliche Fakteninformationen aus Quellen unterschiedlicher Zuverlässigkeit enthalten. In diesem Artikel schlagen wir vor, eine Eigenschaft von LLMs namens Trusted Source Alignment (TSA) zu messen: die Neigung des Modells, sich bei Unsicherheit oder Kontroversen mit Inhalten vertrauenswürdiger Verlage abzustimmen. Wir präsentieren FactCheckQA, einen TSA-Evaluationsdatensatz, der auf einem Korpus von Faktenprüfungsartikeln basiert. Wir beschreiben ein einfaches Protokoll zur Bewertung von TSA und bieten eine detaillierte Analyse von Designüberlegungen, einschließlich der Extraktion von Antworten, der Kontextualisierung von Behauptungen und der Voreingenommenheit bei der Formulierung von Prompts. Bei der Anwendung des Protokolls auf PaLM-2 stellen wir fest, dass mit zunehmender Modellgröße die Leistung des Modells bei FactCheckQA von nahezu zufällig auf bis zu 80% ausgewogene Genauigkeit bei der Abstimmung mit vertrauenswürdigen Quellen ansteigt.
English
Large language models (LLMs) are trained on web-scale corpora that inevitably
include contradictory factual information from sources of varying reliability.
In this paper, we propose measuring an LLM property called trusted source
alignment (TSA): the model's propensity to align with content produced by
trusted publishers in the face of uncertainty or controversy. We present
FactCheckQA, a TSA evaluation dataset based on a corpus of fact checking
articles. We describe a simple protocol for evaluating TSA and offer a detailed
analysis of design considerations including response extraction, claim
contextualization, and bias in prompt formulation. Applying the protocol to
PaLM-2, we find that as we scale up the model size, the model performance on
FactCheckQA improves from near-random to up to 80% balanced accuracy in
aligning with trusted sources.