ANAH-v2: Scalabilità dell'Annotazione delle Allucinazioni Analitiche nei Modelli Linguistici di Grande Dimensione
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models
July 5, 2024
Autori: Yuzhe Gu, Ziwei Ji, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
cs.AI
Abstract
I grandi modelli linguistici (LLM) manifestano allucinazioni in compiti di risposta a domande di lunga durata attraverso vari domini e ampie applicazioni. Gli attuali dataset per il rilevamento e la mitigazione delle allucinazioni sono limitati in termini di domini e dimensioni, e faticano a scalare a causa degli elevati costi di manodopera e dell'affidabilità insufficiente degli annotatori di allucinazioni esistenti. Per facilitare il controllo scalabile delle allucinazioni degli LLM, questo articolo introduce un framework di auto-addestramento iterativo che scala simultaneamente e progressivamente il dataset di annotazione delle allucinazioni e migliora l'accuratezza dell'annotatore di allucinazioni. Basato sull'algoritmo Expectation Maximization (EM), in ogni iterazione, il framework applica prima una pipeline di annotazione delle allucinazioni per annotare un dataset scalato e poi addestra un annotatore di allucinazioni più accurato sul dataset. Questo nuovo annotatore di allucinazioni viene adottato nella pipeline di annotazione delle allucinazioni utilizzata per l'iterazione successiva. I risultati sperimentali estesi dimostrano che l'annotatore di allucinazioni finalmente ottenuto, con soli 7B parametri, supera le prestazioni di GPT-4 e ottiene nuovi risultati all'avanguardia nel rilevamento delle allucinazioni su HaluEval e HalluQA tramite inferenza zero-shot. Tale annotatore non solo può valutare i livelli di allucinazione di vari LLM su un dataset su larga scala, ma aiuta anche a mitigare le allucinazioni delle generazioni degli LLM, con la metrica Natural Language Inference (NLI) che aumenta dal 25% al 37% su HaluEval.
English
Large language models (LLMs) exhibit hallucinations in long-form
question-answering tasks across various domains and wide applications. Current
hallucination detection and mitigation datasets are limited in domains and
sizes, which struggle to scale due to prohibitive labor costs and insufficient
reliability of existing hallucination annotators. To facilitate the scalable
oversight of LLM hallucinations, this paper introduces an iterative
self-training framework that simultaneously and progressively scales up the
hallucination annotation dataset and improves the accuracy of the hallucination
annotator. Based on the Expectation Maximization (EM) algorithm, in each
iteration, the framework first applies a hallucination annotation pipeline to
annotate a scaled dataset and then trains a more accurate hallucination
annotator on the dataset. This new hallucination annotator is adopted in the
hallucination annotation pipeline used for the next iteration. Extensive
experimental results demonstrate that the finally obtained hallucination
annotator with only 7B parameters surpasses the performance of GPT-4 and
obtains new state-of-the-art hallucination detection results on HaluEval and
HalluQA by zero-shot inference. Such an annotator can not only evaluate the
hallucination levels of various LLMs on the large-scale dataset but also help
to mitigate the hallucination of LLMs generations, with the Natural Language
Inference (NLI) metric increasing from 25% to 37% on HaluEval.