FLAME : Alignement basé sur la factualité pour les grands modèles de langage
FLAME: Factuality-Aware Alignment for Large Language Models
May 2, 2024
Auteurs: Sheng-Chieh Lin, Luyu Gao, Barlas Oguz, Wenhan Xiong, Jimmy Lin, Wen-tau Yih, Xilun Chen
cs.AI
Résumé
L'alignement est une procédure standard pour affiner des modèles de langage pré-entraînés (LLMs) afin qu'ils suivent des instructions en langage naturel et servent d'assistants IA utiles. Cependant, nous avons observé que le processus d'alignement conventionnel ne parvient pas à améliorer la précision factuelle des LLMs, et conduit souvent à la génération de plus de fausses informations (c'est-à-dire des hallucinations). Dans cet article, nous étudions comment rendre le processus d'alignement des LLMs plus factuel, en identifiant d'abord les facteurs qui conduisent à des hallucinations dans les deux étapes de l'alignement : le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL). En particulier, nous constatons que l'entraînement du LLM sur de nouvelles connaissances ou des textes non familiers peut encourager les hallucinations. Cela rend le SFT moins factuel, car il s'entraîne sur des données étiquetées par des humains qui peuvent être nouvelles pour le LLM. De plus, les fonctions de récompense utilisées dans le RL standard peuvent également encourager les hallucinations, car elles guident le LLM à fournir des réponses plus utiles sur un ensemble diversifié d'instructions, en privilégiant souvent des réponses plus longues et plus détaillées. Sur la base de ces observations, nous proposons un alignement conscient de la factualité, composé d'un SFT conscient de la factualité et d'un RL conscient de la factualité via l'optimisation directe des préférences. Les expériences montrent que notre alignement conscient de la factualité guide les LLMs à produire des réponses plus factuelles tout en maintenant leur capacité à suivre les instructions.
English
Alignment is a standard procedure to fine-tune pre-trained large language
models (LLMs) to follow natural language instructions and serve as helpful AI
assistants. We have observed, however, that the conventional alignment process
fails to enhance the factual accuracy of LLMs, and often leads to the
generation of more false facts (i.e. hallucination). In this paper, we study
how to make the LLM alignment process more factual, by first identifying
factors that lead to hallucination in both alignment steps:\ supervised
fine-tuning (SFT) and reinforcement learning (RL). In particular, we find that
training the LLM on new knowledge or unfamiliar texts can encourage
hallucination. This makes SFT less factual as it trains on human labeled data
that may be novel to the LLM. Furthermore, reward functions used in standard RL
can also encourage hallucination, because it guides the LLM to provide more
helpful responses on a diverse set of instructions, often preferring longer and
more detailed responses. Based on these observations, we propose
factuality-aware alignment, comprised of factuality-aware SFT and
factuality-aware RL through direct preference optimization. Experiments show
that our proposed factuality-aware alignment guides LLMs to output more factual
responses while maintaining instruction-following capability.Summary
AI-Generated Summary