HALoGEN: Fantastische LLM Hallucinaties en Waar Je Ze Kunt Vinden
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them
January 14, 2025
Auteurs: Abhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi
cs.AI
Samenvatting
Ondanks hun indrukwekkende vermogen om tekst van hoge kwaliteit en vloeiend te genereren, produceren generatieve grote taalmodellen (GTM's) ook hallucinaties: uitspraken die niet in overeenstemming zijn met vastgestelde wereldkennis of de verstrekte context van de invoer. Het meten van hallucinatie kan echter uitdagend zijn, aangezien het laten verifiëren van modelgeneraties door mensen ter plekke zowel duur als tijdrovend is. In dit werk publiceren we HALoGEN, een uitgebreide hallucinatie-benchmark bestaande uit: (1) 10.923 prompts voor generatieve modellen die negen domeinen bestrijken, waaronder programmeren, wetenschappelijke attributie en samenvatting, en (2) automatische verificatiemiddelen met hoge precisie voor elk gebruiksscenario die LLM-generaties ontleden in atomaire eenheden en elke eenheid verifiëren tegen een hoogwaardige kennisbron. We gebruiken dit kader om ongeveer 150.000 generaties van 14 taalmodellen te evalueren, waarbij we ontdekken dat zelfs de best presterende modellen vergeven zijn van hallucinaties (soms tot wel 86% van gegenereerde atomaire feiten, afhankelijk van het domein). We definiëren verder een nieuwe foutclassificatie voor LLM-hallucinaties op basis van of ze waarschijnlijk voortkomen uit onjuiste herinnering aan trainingsgegevens (Type A-fouten), onjuiste kennis in trainingsgegevens (Type B-fouten) of fabricatie (Type C-fouten). We hopen dat ons kader een basis biedt om het systematische onderzoek naar waarom generatieve modellen hallucineren mogelijk te maken en de ontwikkeling van betrouwbare grote taalmodellen te bevorderen.
English
Despite their impressive ability to generate high-quality and fluent text,
generative large language models (LLMs) also produce hallucinations: statements
that are misaligned with established world knowledge or provided input context.
However, measuring hallucination can be challenging, as having humans verify
model generations on-the-fly is both expensive and time-consuming. In this
work, we release HALoGEN, a comprehensive hallucination benchmark consisting
of: (1) 10,923 prompts for generative models spanning nine domains including
programming, scientific attribution, and summarization, and (2) automatic
high-precision verifiers for each use case that decompose LLM generations into
atomic units, and verify each unit against a high-quality knowledge source. We
use this framework to evaluate ~150,000 generations from 14 language models,
finding that even the best-performing models are riddled with hallucinations
(sometimes up to 86% of generated atomic facts depending on the domain). We
further define a novel error classification for LLM hallucinations based on
whether they likely stem from incorrect recollection of training data (Type A
errors), or incorrect knowledge in training data (Type B errors), or are
fabrication (Type C errors). We hope our framework provides a foundation to
enable the principled study of why generative models hallucinate, and advances
the development of trustworthy large language models.Summary
AI-Generated Summary