Детоксикация галлюцинаций: отказ чувствительных нейронов (SeND) для обучения больших языковых моделей

Аннотация

Поскольку большие языковые модели (LLM) все чаще применяются в различных отраслях, возрастает беспокойство относительно их надежности, особенно из-за галлюцинаций - результатов, которые фактически неверны или не имеют отношения к вводу пользователя. Наше исследование исследует взаимосвязь между процессом обучения и возникновением галлюцинаций, чтобы заполнить ключевой пробел в существующих исследованиях, которые в основном сосредотачиваются на стратегиях пост-фактум обнаружения и смягчения. Используя модели из набора Pythia (70M-12B параметров) и несколько метрик обнаружения галлюцинаций, мы анализируем тенденции галлюцинаций на протяжении обучения и исследуем внутреннюю динамику LLM. Мы представляем SEnsitive Neuron Dropout (SeND), новый протокол обучения, разработанный для смягчения галлюцинаций путем уменьшения дисперсии во время обучения. SeND достигает этого путем детерминированного отсева нейронов с значительной изменчивостью на наборе данных, называемых Чувствительными Нейронами. Кроме того, мы разрабатываем метрику обнаружения галлюцинаций без учителя, Эффективный EigenScore (EES), который приближает традиционный EigenScore в 2 раза быстрее. Эта эффективная метрика интегрируется в наш протокол, позволяя SeND быть как вычислительно масштабируемым, так и эффективным в снижении галлюцинаций. Наша эмпирическая оценка демонстрирует, что наш подход повышает надежность LLM на этапе тестирования на до 40% по сравнению с обычным обучением, обеспечивая при этом эффективный метод улучшения фактической точности при адаптации LLM к областям, таким как Википедия и медицинские наборы данных.

English

As large language models (LLMs) become increasingly deployed across various industries, concerns regarding their reliability, particularly due to hallucinations-outputs that are factually inaccurate or irrelevant to user input-have grown. Our research investigates the relationship between the training process and the emergence of hallucinations to address a key gap in existing research that focuses primarily on post hoc detection and mitigation strategies. Using models from the Pythia suite (70M-12B parameters) and several hallucination detection metrics, we analyze hallucination trends throughout training and explore LLM internal dynamics. We introduce SEnsitive Neuron Dropout (SeND), a novel training protocol designed to mitigate hallucinations by reducing variance during training. SeND achieves this by deterministically dropping neurons with significant variability on a dataset, referred to as Sensitive Neurons. In addition, we develop an unsupervised hallucination detection metric, Efficient EigenScore (EES), which approximates the traditional EigenScore in 2x speed. This efficient metric is integrated into our protocol, allowing SeND to be both computationally scalable and effective at reducing hallucinations. Our empirical evaluation demonstrates that our approach improves LLM reliability at test time by up to 40% compared to normal training while also providing an efficient method to improve factual accuracy when adapting LLMs to domains such as Wikipedia and Medical datasets.

Детоксикация галлюцинаций: отказ чувствительных нейронов (SeND) для обучения больших языковых моделей

Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training

Аннотация

Support