ANAH-v2: Escalando la Anotación de Alucinaciones Analíticas en Modelos de Lenguaje Grandes
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models
July 5, 2024
Autores: Yuzhe Gu, Ziwei Ji, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) presentan alucinaciones en tareas de pregunta-respuesta de larga extensión en diversos dominios y amplias aplicaciones. Los conjuntos de datos actuales para la detección y mitigación de alucinaciones son limitados en dominios y tamaños, lo que dificulta su escalabilidad debido a los costos laborales prohibitivos y la insuficiente fiabilidad de los anotadores de alucinaciones existentes. Para facilitar la supervisión escalable de las alucinaciones de los LLMs, este artículo presenta un marco de autoaprendizaje iterativo que escala simultánea y progresivamente el conjunto de datos de anotación de alucinaciones y mejora la precisión del anotador de alucinaciones. Basado en el algoritmo de Expectation Maximization (EM), en cada iteración, el marco primero aplica un pipeline de anotación de alucinaciones para anotar un conjunto de datos escalado y luego entrena un anotador de alucinaciones más preciso en el conjunto de datos. Este nuevo anotador de alucinaciones se adopta en el pipeline de anotación de alucinaciones utilizado para la siguiente iteración. Los extensos resultados experimentales demuestran que el anotador de alucinaciones finalmente obtenido con solo 7 mil millones de parámetros supera el rendimiento de GPT-4 y logra nuevos resultados de detección de alucinaciones de vanguardia en HaluEval y HalluQA mediante inferencia de cero disparos. Dicho anotador no solo puede evaluar los niveles de alucinación de varios LLMs en el conjunto de datos a gran escala, sino que también ayuda a mitigar la alucinación de las generaciones de LLMs, con la métrica de Inferencia de Lenguaje Natural (NLI) aumentando del 25% al 37% en HaluEval.
English
Large language models (LLMs) exhibit hallucinations in long-form
question-answering tasks across various domains and wide applications. Current
hallucination detection and mitigation datasets are limited in domains and
sizes, which struggle to scale due to prohibitive labor costs and insufficient
reliability of existing hallucination annotators. To facilitate the scalable
oversight of LLM hallucinations, this paper introduces an iterative
self-training framework that simultaneously and progressively scales up the
hallucination annotation dataset and improves the accuracy of the hallucination
annotator. Based on the Expectation Maximization (EM) algorithm, in each
iteration, the framework first applies a hallucination annotation pipeline to
annotate a scaled dataset and then trains a more accurate hallucination
annotator on the dataset. This new hallucination annotator is adopted in the
hallucination annotation pipeline used for the next iteration. Extensive
experimental results demonstrate that the finally obtained hallucination
annotator with only 7B parameters surpasses the performance of GPT-4 and
obtains new state-of-the-art hallucination detection results on HaluEval and
HalluQA by zero-shot inference. Such an annotator can not only evaluate the
hallucination levels of various LLMs on the large-scale dataset but also help
to mitigate the hallucination of LLMs generations, with the Natural Language
Inference (NLI) metric increasing from 25% to 37% on HaluEval.Summary
AI-Generated Summary