Je ne sais pas : Modélisation explicite de l'incertitude avec un jeton [IDK]
I Don't Know: Explicit Modeling of Uncertainty with an [IDK] Token
December 9, 2024
Auteurs: Roi Cohen, Konstantin Dobler, Eden Biran, Gerard de Melo
cs.AI
Résumé
Les grands modèles de langage sont connus pour capturer des connaissances du monde réel, ce qui leur permet d'exceller dans de nombreuses tâches ultérieures. Malgré les avancées récentes, ces modèles restent sujets à ce que l'on appelle communément des hallucinations, les amenant à produire du texte indésirable et incorrect sur le plan factuel. Dans ce travail, nous proposons une nouvelle méthode de calibration qui peut être utilisée pour lutter contre les hallucinations. Nous ajoutons un jeton spécial [IDK] ("Je ne sais pas") au vocabulaire du modèle et introduisons une fonction objective qui déplace la masse de probabilité vers le jeton [IDK] pour les prédictions incorrectes. Cette approche permet au modèle d'exprimer explicitement son incertitude dans sa sortie. Nous évaluons notre méthode proposée sur plusieurs architectures de modèles et tâches factuelles ultérieures. Nous constatons que les modèles entraînés avec notre méthode sont capables d'exprimer l'incertitude là où ils commettraient auparavant des erreurs, tout en subissant seulement une légère perte de connaissances encodées. Nous réalisons en outre des études d'ablation approfondies de plusieurs variations de notre approche et fournissons une analyse détaillée du compromis précision-rappel de notre méthode.
English
Large Language Models are known to capture real-world knowledge, allowing
them to excel in many downstream tasks. Despite recent advances, these models
are still prone to what are commonly known as hallucinations, causing them to
emit unwanted and factually incorrect text. In this work, we propose a novel
calibration method that can be used to combat hallucinations. We add a special
[IDK] ("I don't know") token to the model's vocabulary and introduce an
objective function that shifts probability mass to the [IDK] token for
incorrect predictions. This approach allows the model to express uncertainty in
its output explicitly. We evaluate our proposed method across multiple model
architectures and factual downstream tasks. We find that models trained with
our method are able to express uncertainty in places where they would
previously make mistakes while suffering only a small loss of encoded
knowledge. We further perform extensive ablation studies of multiple variations
of our approach and provide a detailed analysis of the precision-recall
tradeoff of our method.Summary
AI-Generated Summary