HALoGEN : Hallucinations LLM Fantastiques et Où les Trouver
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them
January 14, 2025
Auteurs: Abhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi
cs.AI
Résumé
Malgré leur impressionnante capacité à générer un texte de haute qualité et fluide, les grands modèles de langage génératif produisent également des hallucinations : des affirmations qui ne sont pas en accord avec les connaissances mondiales établies ou le contexte d'entrée fourni. Cependant, mesurer l'hallucination peut être difficile, car faire vérifier les générations de modèles par des humains en temps réel est à la fois coûteux et chronophage. Dans ce travail, nous présentons HALoGEN, un banc d'essai exhaustif sur l'hallucination comprenant : (1) 10 923 stimuli pour les modèles génératifs couvrant neuf domaines incluant la programmation, l'attribution scientifique et la résumé, et (2) des vérificateurs automatiques à haute précision pour chaque cas d'utilisation qui décomposent les générations de LLM en unités atomiques, et vérifient chaque unité par rapport à une source de connaissances de haute qualité. Nous utilisons ce cadre pour évaluer environ 150 000 générations de 14 modèles de langage, constatant que même les modèles les plus performants sont truffés d'hallucinations (parfois jusqu'à 86 % des faits atomiques générés selon le domaine). Nous définissons en outre une nouvelle classification d'erreurs pour les hallucinations de LLM basée sur le fait qu'elles proviennent probablement d'une mauvaise mémorisation des données d'entraînement (erreurs de type A), d'une connaissance incorrecte des données d'entraînement (erreurs de type B), ou sont une fabrication (erreurs de type C). Nous espérons que notre cadre fournira une base pour permettre l'étude raisonnée des raisons pour lesquelles les modèles génératifs hallucinent, et fera progresser le développement de grands modèles de langage fiables.
English
Despite their impressive ability to generate high-quality and fluent text,
generative large language models (LLMs) also produce hallucinations: statements
that are misaligned with established world knowledge or provided input context.
However, measuring hallucination can be challenging, as having humans verify
model generations on-the-fly is both expensive and time-consuming. In this
work, we release HALoGEN, a comprehensive hallucination benchmark consisting
of: (1) 10,923 prompts for generative models spanning nine domains including
programming, scientific attribution, and summarization, and (2) automatic
high-precision verifiers for each use case that decompose LLM generations into
atomic units, and verify each unit against a high-quality knowledge source. We
use this framework to evaluate ~150,000 generations from 14 language models,
finding that even the best-performing models are riddled with hallucinations
(sometimes up to 86% of generated atomic facts depending on the domain). We
further define a novel error classification for LLM hallucinations based on
whether they likely stem from incorrect recollection of training data (Type A
errors), or incorrect knowledge in training data (Type B errors), or are
fabrication (Type C errors). We hope our framework provides a foundation to
enable the principled study of why generative models hallucinate, and advances
the development of trustworthy large language models.Summary
AI-Generated Summary