FLAME : Alignement basé sur la factualité pour les grands modèles de langage

papers.abstract

L'alignement est une procédure standard pour affiner des modèles de langage pré-entraînés (LLMs) afin qu'ils suivent des instructions en langage naturel et servent d'assistants IA utiles. Cependant, nous avons observé que le processus d'alignement conventionnel ne parvient pas à améliorer la précision factuelle des LLMs, et conduit souvent à la génération de plus de fausses informations (c'est-à-dire des hallucinations). Dans cet article, nous étudions comment rendre le processus d'alignement des LLMs plus factuel, en identifiant d'abord les facteurs qui conduisent à des hallucinations dans les deux étapes de l'alignement : le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL). En particulier, nous constatons que l'entraînement du LLM sur de nouvelles connaissances ou des textes non familiers peut encourager les hallucinations. Cela rend le SFT moins factuel, car il s'entraîne sur des données étiquetées par des humains qui peuvent être nouvelles pour le LLM. De plus, les fonctions de récompense utilisées dans le RL standard peuvent également encourager les hallucinations, car elles guident le LLM à fournir des réponses plus utiles sur un ensemble diversifié d'instructions, en privilégiant souvent des réponses plus longues et plus détaillées. Sur la base de ces observations, nous proposons un alignement conscient de la factualité, composé d'un SFT conscient de la factualité et d'un RL conscient de la factualité via l'optimisation directe des préférences. Les expériences montrent que notre alignement conscient de la factualité guide les LLMs à produire des réponses plus factuelles tout en maintenant leur capacité à suivre les instructions.

English

Alignment is a standard procedure to fine-tune pre-trained large language models (LLMs) to follow natural language instructions and serve as helpful AI assistants. We have observed, however, that the conventional alignment process fails to enhance the factual accuracy of LLMs, and often leads to the generation of more false facts (i.e. hallucination). In this paper, we study how to make the LLM alignment process more factual, by first identifying factors that lead to hallucination in both alignment steps:\ supervised fine-tuning (SFT) and reinforcement learning (RL). In particular, we find that training the LLM on new knowledge or unfamiliar texts can encourage hallucination. This makes SFT less factual as it trains on human labeled data that may be novel to the LLM. Furthermore, reward functions used in standard RL can also encourage hallucination, because it guides the LLM to provide more helpful responses on a diverse set of instructions, often preferring longer and more detailed responses. Based on these observations, we propose factuality-aware alignment, comprised of factuality-aware SFT and factuality-aware RL through direct preference optimization. Experiments show that our proposed factuality-aware alignment guides LLMs to output more factual responses while maintaining instruction-following capability.

FLAME : Alignement basé sur la factualité pour les grands modèles de langage

FLAME: Factuality-Aware Alignment for Large Language Models

papers.abstract

Support