ANAH-v2: Schaalvergroting van Analytische Hallucinatieannotatie voor Grote Taalmodellen
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models
July 5, 2024
Auteurs: Yuzhe Gu, Ziwei Ji, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
cs.AI
Samenvatting
Grote taalmodellen (LLMs) vertonen hallucinaties bij langlopende vraag-antwoordtaken in verschillende domeinen en brede toepassingen. De huidige datasets voor het detecteren en beperken van hallucinaties zijn beperkt in domeinen en omvang, wat schaalbaarheid bemoeilijkt vanwege de hoge arbeidskosten en de onvoldoende betrouwbaarheid van bestaande hallucinatie-annotators. Om de schaalbare controle van hallucinaties in LLMs te vergemakkelijken, introduceert dit artikel een iteratief zelf-trainingsraamwerk dat gelijktijdig en progressief de hallucinatie-annotatiedataset opschaalt en de nauwkeurigheid van de hallucinatie-annotator verbetert. Gebaseerd op het Expectation Maximization (EM)-algoritme, past het raamwerk in elke iteratie eerst een hallucinatie-annotatiepijplijn toe om een geschaalde dataset te annoteren en traint vervolgens een nauwkeurigere hallucinatie-annotator op de dataset. Deze nieuwe hallucinatie-annotator wordt gebruikt in de hallucinatie-annotatiepijplijn voor de volgende iteratie. Uitgebreide experimentele resultaten tonen aan dat de uiteindelijk verkregen hallucinatie-annotator met slechts 7B parameters de prestaties van GPT-4 overtreft en nieuwe state-of-the-art resultaten behaalt voor hallucinatiedetectie op HaluEval en HalluQA door zero-shot inferentie. Zo'n annotator kan niet alleen de hallucinatieniveaus van verschillende LLMs evalueren op de grootschalige dataset, maar ook helpen bij het beperken van hallucinaties in LLM-generaties, waarbij de Natural Language Inference (NLI)-metriek stijgt van 25% naar 37% op HaluEval.
English
Large language models (LLMs) exhibit hallucinations in long-form
question-answering tasks across various domains and wide applications. Current
hallucination detection and mitigation datasets are limited in domains and
sizes, which struggle to scale due to prohibitive labor costs and insufficient
reliability of existing hallucination annotators. To facilitate the scalable
oversight of LLM hallucinations, this paper introduces an iterative
self-training framework that simultaneously and progressively scales up the
hallucination annotation dataset and improves the accuracy of the hallucination
annotator. Based on the Expectation Maximization (EM) algorithm, in each
iteration, the framework first applies a hallucination annotation pipeline to
annotate a scaled dataset and then trains a more accurate hallucination
annotator on the dataset. This new hallucination annotator is adopted in the
hallucination annotation pipeline used for the next iteration. Extensive
experimental results demonstrate that the finally obtained hallucination
annotator with only 7B parameters surpasses the performance of GPT-4 and
obtains new state-of-the-art hallucination detection results on HaluEval and
HalluQA by zero-shot inference. Such an annotator can not only evaluate the
hallucination levels of various LLMs on the large-scale dataset but also help
to mitigate the hallucination of LLMs generations, with the Natural Language
Inference (NLI) metric increasing from 25% to 37% on HaluEval.