ChatPaper.aiChatPaper

Affinage des modèles de langage pour la factualité

Fine-tuning Language Models for Factuality

November 14, 2023
Auteurs: Katherine Tian, Eric Mitchell, Huaxiu Yao, Christopher D. Manning, Chelsea Finn
cs.AI

Résumé

La fluidité et la créativité des grands modèles de langage pré-entraînés (LLM) ont conduit à leur utilisation généralisée, parfois même en remplacement des moteurs de recherche traditionnels. Cependant, les modèles de langage ont tendance à produire des affirmations convaincantes mais factuellement inexactes, souvent qualifiées d'« hallucinations ». Ces erreurs peuvent involontairement propager de la désinformation ou perpétuer de manière nuisible des idées fausses. De plus, la vérification manuelle des réponses des modèles est un processus chronophage, rendant l'acquisition d'étiquettes de factualité humaine coûteuse. Dans ce travail, nous affinons les modèles de langage pour qu'ils soient plus factuels, sans recourir à l'étiquetage humain et en ciblant des contextes de génération plus ouverts que les travaux précédents. Pour ce faire, nous exploitons deux innovations récentes clés en traitement automatique du langage (NLP). Premièrement, plusieurs travaux récents ont proposé des méthodes pour juger de la factualité de textes ouverts en mesurant leur cohérence avec une base de connaissances externe ou simplement en utilisant les scores de confiance d'un grand modèle. Deuxièmement, l'algorithme d'optimisation directe des préférences permet un affinage simple des modèles de langage sur des objectifs autres que l'imitation supervisée, en utilisant un classement des préférences parmi les réponses possibles du modèle. Nous montrons que l'apprentissage à partir de classements de préférence de factualité générés automatiquement, soit par des systèmes de recherche existants, soit par notre nouvelle approche sans recherche, améliore significativement la factualité (pourcentage d'affirmations générées correctes) de Llama-2 sur des sujets réservés par rapport à l'apprentissage par renforcement avec feedback humain (RLHF) ou aux stratégies de décodage ciblant la factualité. À l'échelle de 7 milliards de paramètres, par rapport à Llama-2-chat, nous observons une réduction de 58 % et 40 % du taux d'erreurs factuelles lors de la génération de biographies et de réponses à des questions médicales, respectivement.
English
The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.
PDF302December 15, 2024