ChatPaper.aiChatPaper

Feinabstimmung von Sprachmodellen für Faktentreue

Fine-tuning Language Models for Factuality

November 14, 2023
Autoren: Katherine Tian, Eric Mitchell, Huaxiu Yao, Christopher D. Manning, Chelsea Finn
cs.AI

Zusammenfassung

Die Flüssigkeit und Kreativität großer vortrainierter Sprachmodelle (LLMs) haben zu ihrer weitverbreiteten Nutzung geführt, manchmal sogar als Ersatz für traditionelle Suchmaschinen. Dennoch neigen Sprachmodelle dazu, überzeugend klingende, aber faktisch ungenaue Aussagen zu treffen, oft als „Halluzinationen“ bezeichnet. Diese Fehler können unbeabsichtigt Fehlinformationen verbreiten oder schädliche Missverständnisse aufrechterhalten. Darüber hinaus ist die manuelle Faktenprüfung von Modellantworten ein zeitaufwändiger Prozess, was menschliche Faktenlabels teuer macht. In dieser Arbeit optimieren wir Sprachmodelle, um faktisch korrekter zu sein, ohne menschliche Labeling und mit dem Ziel offenerer Generierungseinstellungen als in früheren Arbeiten. Wir nutzen dazu zwei wichtige Innovationen im Bereich NLP. Erstens haben mehrere aktuelle Arbeiten Methoden vorgeschlagen, um die Faktizität von offenem Text zu beurteilen, indem die Konsistenz mit einer externen Wissensdatenbank oder einfach die Konfidenzscores eines großen Modells gemessen werden. Zweitens ermöglicht der Direct Preference Optimization-Algorithmus eine unkomplizierte Feinabstimmung von Sprachmodellen auf Ziele, die über die überwachte Nachahmung hinausgehen, indem eine Präferenzrangfolge über mögliche Modellantworten verwendet wird. Wir zeigen, dass das Lernen aus automatisch generierten Faktizitäts-Präferenzrangfolgen, die entweder durch bestehende Retrieval-Systeme oder unseren neuartigen Retrieval-freien Ansatz erzeugt werden, die Faktizität (Prozent der generierten Behauptungen, die korrekt sind) von Llama-2 bei zurückgehaltenen Themen im Vergleich zu RLHF oder Dekodierungsstrategien, die auf Faktizität abzielen, signifikant verbessert. Im Maßstab von 7B beobachten wir im Vergleich zu Llama-2-chat eine Reduzierung der Fehlerrate bei Fakten um 58 % bei der Generierung von Biografien und um 40 % bei der Beantwortung medizinischer Fragen.
English
The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.
PDF302December 15, 2024