DoLa : Décodage par contraste des couches pour améliorer la factualité dans les grands modèles de langage
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
September 7, 2023
Auteurs: Yung-Sung Chuang, Yujia Xie, Hongyin Luo, Yoon Kim, James Glass, Pengcheng He
cs.AI
Résumé
Malgré leurs capacités impressionnantes, les grands modèles de langage (LLMs) sont sujets à des hallucinations, c'est-à-dire à générer du contenu qui s'écarte des faits observés lors du pré-entraînement. Nous proposons une stratégie de décodage simple pour réduire les hallucinations avec des LLMs pré-entraînés, qui ne nécessite ni conditionnement sur des connaissances externes récupérées ni ajustement supplémentaire. Notre approche obtient la distribution du prochain jeton en contrastant les différences dans les logits obtenus en projetant les couches tardives par rapport aux couches précoces dans l'espace du vocabulaire, exploitant le fait que les connaissances factuelles dans un LLM ont généralement été localisées à des couches spécifiques du transformateur. Nous constatons que cette approche de Décodage par Contraste des Couches (DoLa) permet de mieux faire émerger les connaissances factuelles et de réduire la génération de faits incorrects. DoLa améliore systématiquement la véracité dans des tâches à choix multiples et des tâches de génération ouverte, par exemple en améliorant les performances des modèles de la famille LLaMA sur TruthfulQA de 12 à 17 points absolus, démontrant ainsi son potentiel à faire générer de manière fiable des faits véridiques par les LLMs.
English
Despite their impressive capabilities, large language models (LLMs) are prone
to hallucinations, i.e., generating content that deviates from facts seen
during pretraining. We propose a simple decoding strategy for reducing
hallucinations with pretrained LLMs that does not require conditioning on
retrieved external knowledge nor additional fine-tuning. Our approach obtains
the next-token distribution by contrasting the differences in logits obtained
from projecting the later layers versus earlier layers to the vocabulary space,
exploiting the fact that factual knowledge in an LLMs has generally been shown
to be localized to particular transformer layers. We find that this Decoding by
Contrasting Layers (DoLa) approach is able to better surface factual knowledge
and reduce the generation of incorrect facts. DoLa consistently improves the
truthfulness across multiple choices tasks and open-ended generation tasks, for
example improving the performance of LLaMA family models on TruthfulQA by
12-17% absolute points, demonstrating its potential in making LLMs reliably
generate truthful facts.