ANAH-v2: Масштабирование аннотации аналитической галлюцинации для больших языковых моделей

Аннотация

Большие языковые модели (LLM) проявляют галлюцинации в задачах долгих ответов на вопросы в различных областях и широких приложениях. Существующие наборы данных для обнаружения и уменьшения галлюцинаций ограничены областями и размерами, что затрудняет их масштабирование из-за высоких трудозатрат и недостаточной надежности существующих аннотаторов галлюцинаций. Для обеспечения масштабируемого контроля за галлюцинациями в LLM, в данной статье представлена итеративная самообучающаяся структура, которая одновременно и постепенно увеличивает набор данных с аннотациями галлюцинаций и повышает точность аннотатора галлюцинаций. Основываясь на алгоритме Expectation Maximization (EM), в каждой итерации структура сначала применяет конвейер аннотации галлюцинаций для аннотации масштабированного набора данных, а затем обучает более точного аннотатора галлюцинаций на этом наборе данных. Этот новый аннотатор галлюцинаций принимается в конвейере аннотации галлюцинаций, используемом для следующей итерации. Обширные экспериментальные результаты показывают, что наконец полученный аннотатор галлюцинаций с всего лишь 7 миллиардами параметров превосходит производительность GPT-4 и достигает новых передовых результатов обнаружения галлюцинаций на HaluEval и HalluQA с помощью нулевого вывода. Такой аннотатор может не только оценивать уровни галлюцинаций различных LLM на крупномасштабном наборе данных, но и помогать уменьшать галлюцинации в генерациях LLM, с метрикой Natural Language Inference (NLI), увеличивающейся с 25% до 37% на HaluEval.

English

Large language models (LLMs) exhibit hallucinations in long-form question-answering tasks across various domains and wide applications. Current hallucination detection and mitigation datasets are limited in domains and sizes, which struggle to scale due to prohibitive labor costs and insufficient reliability of existing hallucination annotators. To facilitate the scalable oversight of LLM hallucinations, this paper introduces an iterative self-training framework that simultaneously and progressively scales up the hallucination annotation dataset and improves the accuracy of the hallucination annotator. Based on the Expectation Maximization (EM) algorithm, in each iteration, the framework first applies a hallucination annotation pipeline to annotate a scaled dataset and then trains a more accurate hallucination annotator on the dataset. This new hallucination annotator is adopted in the hallucination annotation pipeline used for the next iteration. Extensive experimental results demonstrate that the finally obtained hallucination annotator with only 7B parameters surpasses the performance of GPT-4 and obtains new state-of-the-art hallucination detection results on HaluEval and HalluQA by zero-shot inference. Such an annotator can not only evaluate the hallucination levels of various LLMs on the large-scale dataset but also help to mitigate the hallucination of LLMs generations, with the Natural Language Inference (NLI) metric increasing from 25% to 37% on HaluEval.

ANAH-v2: Масштабирование аннотации аналитической галлюцинации для больших языковых моделей

ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models

Аннотация

Support