Persona's als een manier om waarachtigheid in taalmodelen te modelleren
Personas as a Way to Model Truthfulness in Language Models
October 27, 2023
Auteurs: Nitish Joishi, Javier Rando, Abulhair Saparov, Najoung Kim, He He
cs.AI
Samenvatting
Grote Taalmodellen worden getraind op enorme hoeveelheden tekst van het internet, dat zowel feitelijke als misleidende informatie over de wereld bevat. Kunnen taalmodelen waarheid van onwaarheid onderscheiden in deze tegenstrijdige data? Uitgaand van het idee dat LLM's verschillende agentschappen kunnen modelleren die de corpora produceren, stellen we de hypothese op dat ze waarheidsgetrouwe tekst kunnen clusteren door een waarheidsgetrouwe persona te modelleren: een groep agentschappen die waarschijnlijk waarheidsgetrouwe tekst produceren en vergelijkbare kenmerken delen. Bijvoorbeeld, betrouwbare bronnen zoals Wikipedia en wetenschappelijke artikelen gebruiken meestal formele schrijfstijlen en maken consistente beweringen. Door deze persona te modelleren, kunnen LLM's waarheidsgetrouwheid generaliseren buiten de specifieke contexten waarin elk agentschap de trainingsdata heeft gegenereerd. Zo kan het model bijvoorbeeld afleiden dat het agentschap "Wikipedia" waarheidsgetrouw zal zijn over onderwerpen die alleen door "Wetenschap" zijn gegenereerd, omdat ze een gedeelde persona hebben. We tonen eerst bewijs voor de persona-hypothese aan de hand van twee observaties: (1) we kunnen onderzoeken of het antwoord van een model waarheidsgetrouw zal zijn voordat het wordt gegenereerd; (2) het finetunen van een model op een set feiten verbetert de waarheidsgetrouwheid ervan op onbekende onderwerpen. Vervolgens laten we, met behulp van rekenkunde als een synthetische omgeving, zien dat taalmodelen ware en onware uitspraken kunnen scheiden en waarheidsgetrouwheid kunnen generaliseren over agentschappen heen; maar alleen als de agentschappen in de trainingsdata een waarheidsgetrouw generatief proces delen dat het mogelijk maakt om een waarheidsgetrouwe persona te creëren. Over het algemeen suggereren onze bevindingen dat modellen hiërarchische structuren in de data kunnen benutten om abstracte concepten zoals waarheidsgetrouwheid te leren.
English
Large Language Models are trained on vast amounts of text from the internet,
which contains both factual and misleading information about the world. Can
language models discern truth from falsehood in this contradicting data?
Expanding on the view that LLMs can model different agents producing the
corpora, we hypothesize that they can cluster truthful text by modeling a
truthful persona: a group of agents that are likely to produce truthful text
and share similar features. For example, trustworthy sources like Wikipedia and
Science usually use formal writing styles and make consistent claims. By
modeling this persona, LLMs can generalize truthfulness beyond the specific
contexts in which each agent generated the training text. For example, the
model can infer that the agent "Wikipedia" will behave truthfully on topics
that were only generated by "Science" because they share a persona. We first
show evidence for the persona hypothesis via two observations: (1) we can probe
whether a model's answer will be truthful before it is generated; (2)
finetuning a model on a set of facts improves its truthfulness on unseen
topics. Next, using arithmetics as a synthetic environment, we show that
language models can separate true and false statements, and generalize
truthfulness across agents; but only if agents in the training data share a
truthful generative process that enables the creation of a truthful persona.
Overall, our findings suggest that models can exploit hierarchical structures
in the data to learn abstract concepts like truthfulness.