ANAH-v2: Skalierung der analytischen Halluzinationsannotation großer Sprachmodelle
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models
July 5, 2024
Autoren: Yuzhe Gu, Ziwei Ji, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) zeigen Halluzinationen in langen Frage-Antwort-Aufgaben in verschiedenen Bereichen und Anwendungen. Aktuelle Halluzinationserkennungs- und -minderungsdatensätze sind in Bezug auf Domänen und Größen begrenzt, was aufgrund hoher Arbeitskosten und unzureichender Zuverlässigkeit der bestehenden Halluzinationsannotatoren zu Skalierungsproblemen führt. Um die skalierbare Überwachung von LLM-Halluzinationen zu erleichtern, stellt dieser Artikel ein iteratives Selbstlern-Framework vor, das gleichzeitig und progressiv den Halluzinationsannotationsdatensatz erweitert und die Genauigkeit des Halluzinationsannotators verbessert. Basierend auf dem Erwartungs-Maximierungs-Algorithmus (EM) wendet das Framework in jeder Iteration zunächst eine Halluzinationsannotationspipeline auf einen skalierten Datensatz an und trainiert dann einen präziseren Halluzinationsannotator auf dem Datensatz. Dieser neue Halluzinationsannotator wird in der Halluzinationsannotationspipeline für die nächste Iteration übernommen. Umfangreiche experimentelle Ergebnisse zeigen, dass der schließlich erhaltene Halluzinationsannotator mit nur 7B Parametern die Leistung von GPT-4 übertrifft und neue Spitzenleistungsergebnisse bei der Halluzinationserkennung in HaluEval und HalluQA durch Null-Schuss-Inferenz erzielt. Ein solcher Annotator kann nicht nur die Halluzinationsniveaus verschiedener LLMs anhand des groß angelegten Datensatzes bewerten, sondern auch dazu beitragen, die Halluzinationen von LLM-Generationen zu mindern, wobei der Metrik für Natürliche Sprachinferenz (NLI) von 25% auf 37% in HaluEval steigt.
English
Large language models (LLMs) exhibit hallucinations in long-form
question-answering tasks across various domains and wide applications. Current
hallucination detection and mitigation datasets are limited in domains and
sizes, which struggle to scale due to prohibitive labor costs and insufficient
reliability of existing hallucination annotators. To facilitate the scalable
oversight of LLM hallucinations, this paper introduces an iterative
self-training framework that simultaneously and progressively scales up the
hallucination annotation dataset and improves the accuracy of the hallucination
annotator. Based on the Expectation Maximization (EM) algorithm, in each
iteration, the framework first applies a hallucination annotation pipeline to
annotate a scaled dataset and then trains a more accurate hallucination
annotator on the dataset. This new hallucination annotator is adopted in the
hallucination annotation pipeline used for the next iteration. Extensive
experimental results demonstrate that the finally obtained hallucination
annotator with only 7B parameters surpasses the performance of GPT-4 and
obtains new state-of-the-art hallucination detection results on HaluEval and
HalluQA by zero-shot inference. Such an annotator can not only evaluate the
hallucination levels of various LLMs on the large-scale dataset but also help
to mitigate the hallucination of LLMs generations, with the Natural Language
Inference (NLI) metric increasing from 25% to 37% on HaluEval.Summary
AI-Generated Summary