Het finetunen van taalmodellen voor feitelijkheid
Fine-tuning Language Models for Factuality
November 14, 2023
Auteurs: Katherine Tian, Eric Mitchell, Huaxiu Yao, Christopher D. Manning, Chelsea Finn
cs.AI
Samenvatting
De vloeiendheid en creativiteit van grote vooraf getrainde taalmmodellen (LLM's) hebben geleid tot hun brede toepassing, soms zelfs als vervanging van traditionele zoekmachines. Toch zijn taalmmodellen geneigd om overtuigende maar feitelijk onjuiste beweringen te maken, vaak aangeduid als 'hallucinaties'. Deze fouten kunnen onbedoeld desinformatie verspreiden of schadelijke misvattingen in stand houden. Bovendien is handmatige feitencontrole van modelreacties een tijdrovend proces, waardoor menselijke feitelijkheidslabels duur zijn om te verkrijgen. In dit werk fine-tunen we taalmmodellen om feitelijker te zijn, zonder menselijke labeling en gericht op meer open-ended generatie-instellingen dan eerder werk. Hiervoor maken we gebruik van twee belangrijke recente innovaties in NLP. Ten eerste hebben verschillende recente werken methoden voorgesteld om de feitelijkheid van open-ended tekst te beoordelen door consistentie te meten met een externe kennisbank of simpelweg de betrouwbaarheidsscores van een groot model. Ten tweede maakt het direct preference optimization-algoritme het mogelijk om taalmmodellen eenvoudig te fine-tunen op doelen anders dan gesuperviseerde imitatie, door gebruik te maken van een voorkeursrangschikking over mogelijke modelreacties. We laten zien dat leren van automatisch gegenereerde feitelijkheidsvoorkeursrangschikkingen, gegenereerd via bestaande retrievalsystemen of onze nieuwe retrieval-vrije aanpak, de feitelijkheid (het percentage gegenereerde beweringen dat correct is) van Llama-2 aanzienlijk verbetert op onderwerpen die buiten de trainingsset vallen, vergeleken met RLHF of decodeerstrategieën gericht op feitelijkheid. Op de 7B-schaal, vergeleken met Llama-2-chat, observeren we een reductie van 58% en 40% in de feitelijke foutfrequentie bij het genereren van biografieën en het beantwoorden van medische vragen, respectievelijk.
English
The fluency and creativity of large pre-trained language models (LLMs) have
led to their widespread use, sometimes even as a replacement for traditional
search engines. Yet language models are prone to making convincing but
factually inaccurate claims, often referred to as 'hallucinations.' These
errors can inadvertently spread misinformation or harmfully perpetuate
misconceptions. Further, manual fact-checking of model responses is a
time-consuming process, making human factuality labels expensive to acquire. In
this work, we fine-tune language models to be more factual, without human
labeling and targeting more open-ended generation settings than past work. We
leverage two key recent innovations in NLP to do so. First, several recent
works have proposed methods for judging the factuality of open-ended text by
measuring consistency with an external knowledge base or simply a large model's
confidence scores. Second, the direct preference optimization algorithm enables
straightforward fine-tuning of language models on objectives other than
supervised imitation, using a preference ranking over possible model responses.
We show that learning from automatically generated factuality preference
rankings, generated either through existing retrieval systems or our novel
retrieval-free approach, significantly improves the factuality (percent of
generated claims that are correct) of Llama-2 on held-out topics compared with
RLHF or decoding strategies targeted at factuality. At 7B scale, compared to
Llama-2-chat, we observe 58% and 40% reduction in factual error rate when
generating biographies and answering medical questions, respectively.