ChatPaper.aiChatPaper

Personas als Methode zur Modellierung von Wahrhaftigkeit in Sprachmodellen

Personas as a Way to Model Truthfulness in Language Models

October 27, 2023
papers.authors: Nitish Joishi, Javier Rando, Abulhair Saparov, Najoung Kim, He He
cs.AI

papers.abstract

Große Sprachmodelle werden mit enormen Mengen an Text aus dem Internet trainiert, der sowohl faktenbasierte als auch irreführende Informationen über die Welt enthält. Können Sprachmodelle in diesen widersprüchlichen Daten Wahrheit von Falschheit unterscheiden? Aufbauend auf der Ansicht, dass LLMs verschiedene Agenten modellieren können, die die Textkorpora erzeugen, stellen wir die Hypothese auf, dass sie wahrheitsgetreue Texte clustern können, indem sie eine wahrheitsgetreue Persona modellieren: eine Gruppe von Agenten, die wahrscheinlich wahrheitsgetreue Texte produzieren und ähnliche Merkmale aufweisen. Zum Beispiel verwenden vertrauenswürdige Quellen wie Wikipedia und wissenschaftliche Publikationen in der Regel formelle Schreibstile und machen konsistente Aussagen. Durch die Modellierung dieser Persona können LLMs Wahrhaftigkeit über die spezifischen Kontexte hinaus verallgemeinern, in denen jeder Agent den Trainingstext erzeugt hat. Beispielsweise kann das Modell ableiten, dass der Agent „Wikipedia“ in Bezug auf Themen, die nur von „Wissenschaft“ erzeugt wurden, wahrheitsgetreu agieren wird, da sie eine gemeinsame Persona teilen. Wir zeigen zunächst Belege für die Persona-Hypothese durch zwei Beobachtungen: (1) Wir können prüfen, ob die Antwort eines Modells wahrheitsgetreu sein wird, bevor sie generiert wird; (2) das Feinabstimmen eines Modells auf eine Reihe von Fakten verbessert seine Wahrhaftigkeit bei unbekannten Themen. Anschließend zeigen wir mithilfe von Arithmetik als synthetischem Umfeld, dass Sprachmodelle wahre und falsche Aussagen trennen und Wahrhaftigkeit über Agenten hinweg verallgemeinern können; jedoch nur, wenn die Agenten in den Trainingsdaten einen wahrheitsgetreuen Generierungsprozess teilen, der die Erstellung einer wahrheitsgetreuen Persona ermöglicht. Insgesamt deuten unsere Ergebnisse darauf hin, dass Modelle hierarchische Strukturen in den Daten nutzen können, um abstrakte Konzepte wie Wahrhaftigkeit zu erlernen.
English
Large Language Models are trained on vast amounts of text from the internet, which contains both factual and misleading information about the world. Can language models discern truth from falsehood in this contradicting data? Expanding on the view that LLMs can model different agents producing the corpora, we hypothesize that they can cluster truthful text by modeling a truthful persona: a group of agents that are likely to produce truthful text and share similar features. For example, trustworthy sources like Wikipedia and Science usually use formal writing styles and make consistent claims. By modeling this persona, LLMs can generalize truthfulness beyond the specific contexts in which each agent generated the training text. For example, the model can infer that the agent "Wikipedia" will behave truthfully on topics that were only generated by "Science" because they share a persona. We first show evidence for the persona hypothesis via two observations: (1) we can probe whether a model's answer will be truthful before it is generated; (2) finetuning a model on a set of facts improves its truthfulness on unseen topics. Next, using arithmetics as a synthetic environment, we show that language models can separate true and false statements, and generalize truthfulness across agents; but only if agents in the training data share a truthful generative process that enables the creation of a truthful persona. Overall, our findings suggest that models can exploit hierarchical structures in the data to learn abstract concepts like truthfulness.
PDF51December 15, 2024