Детоксикация галлюцинаций: отказ чувствительных нейронов (SeND) для обучения больших языковых моделей
Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training
October 20, 2024
Авторы: Shahrad Mohammadzadeh, Juan David Guerra, Marco Bonizzato, Reihaneh Rabbany, Golnoosh Farnadi
cs.AI
Аннотация
Поскольку большие языковые модели (LLM) все чаще применяются в различных отраслях, возрастает беспокойство относительно их надежности, особенно из-за галлюцинаций - результатов, которые фактически неверны или не имеют отношения к вводу пользователя. Наше исследование исследует взаимосвязь между процессом обучения и возникновением галлюцинаций, чтобы заполнить ключевой пробел в существующих исследованиях, которые в основном сосредотачиваются на стратегиях пост-фактум обнаружения и смягчения. Используя модели из набора Pythia (70M-12B параметров) и несколько метрик обнаружения галлюцинаций, мы анализируем тенденции галлюцинаций на протяжении обучения и исследуем внутреннюю динамику LLM. Мы представляем SEnsitive Neuron Dropout (SeND), новый протокол обучения, разработанный для смягчения галлюцинаций путем уменьшения дисперсии во время обучения. SeND достигает этого путем детерминированного отсева нейронов с значительной изменчивостью на наборе данных, называемых Чувствительными Нейронами. Кроме того, мы разрабатываем метрику обнаружения галлюцинаций без учителя, Эффективный EigenScore (EES), который приближает традиционный EigenScore в 2 раза быстрее. Эта эффективная метрика интегрируется в наш протокол, позволяя SeND быть как вычислительно масштабируемым, так и эффективным в снижении галлюцинаций. Наша эмпирическая оценка демонстрирует, что наш подход повышает надежность LLM на этапе тестирования на до 40% по сравнению с обычным обучением, обеспечивая при этом эффективный метод улучшения фактической точности при адаптации LLM к областям, таким как Википедия и медицинские наборы данных.
English
As large language models (LLMs) become increasingly deployed across various
industries, concerns regarding their reliability, particularly due to
hallucinations-outputs that are factually inaccurate or irrelevant to user
input-have grown. Our research investigates the relationship between the
training process and the emergence of hallucinations to address a key gap in
existing research that focuses primarily on post hoc detection and mitigation
strategies. Using models from the Pythia suite (70M-12B parameters) and several
hallucination detection metrics, we analyze hallucination trends throughout
training and explore LLM internal dynamics. We introduce SEnsitive Neuron
Dropout (SeND), a novel training protocol designed to mitigate hallucinations
by reducing variance during training. SeND achieves this by deterministically
dropping neurons with significant variability on a dataset, referred to as
Sensitive Neurons. In addition, we develop an unsupervised hallucination
detection metric, Efficient EigenScore (EES), which approximates the
traditional EigenScore in 2x speed. This efficient metric is integrated into
our protocol, allowing SeND to be both computationally scalable and effective
at reducing hallucinations. Our empirical evaluation demonstrates that our
approach improves LLM reliability at test time by up to 40% compared to normal
training while also providing an efficient method to improve factual accuracy
when adapting LLMs to domains such as Wikipedia and Medical datasets.Summary
AI-Generated Summary