Disintossicazione dall'allucinazione: Dropout Sensibile ai Neuroni (SeND) per l'Addestramento di Grandi Modelli Linguistici
Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training
October 20, 2024
Autori: Shahrad Mohammadzadeh, Juan David Guerra, Marco Bonizzato, Reihaneh Rabbany, Golnoosh Farnadi
cs.AI
Abstract
Con l'aumento dell'utilizzo sempre più diffuso dei grandi modelli linguistici (LLM) in varie industrie, sono cresciute le preoccupazioni sulla loro affidabilità, in particolare a causa delle allucinazioni, ossia delle uscite che sono factualmente inaccurate o non pertinenti all'input dell'utente. La nostra ricerca indaga il rapporto tra il processo di addestramento e l'emergere delle allucinazioni per affrontare una lacuna chiave nella ricerca esistente che si concentra principalmente sulle strategie di rilevamento e mitigazione post hoc. Utilizzando modelli della suite Pythia (70M-12B parametri) e diversi indicatori di rilevamento delle allucinazioni, analizziamo le tendenze delle allucinazioni durante l'addestramento ed esploriamo le dinamiche interne dei LLM. Introduciamo SEnsitive Neuron Dropout (SeND), un nuovo protocollo di addestramento progettato per mitigare le allucinazioni riducendo la varianza durante l'addestramento. SeND raggiunge questo obiettivo eliminando deterministicamente i neuroni con significativa variabilità su un insieme di dati, chiamati Neuroni Sensibili. Inoltre, sviluppiamo un indicatore di rilevamento delle allucinazioni non supervisionato, Efficient EigenScore (EES), che approssima l'EigenScore tradizionale con una velocità doppia. Questo indicatore efficiente è integrato nel nostro protocollo, consentendo a SeND di essere sia scalabile computazionalmente che efficace nel ridurre le allucinazioni. La nostra valutazione empirica dimostra che il nostro approccio migliora l'affidabilità dei LLM al momento del test fino al 40% rispetto all'addestramento normale, fornendo anche un metodo efficiente per migliorare l'accuratezza fattuale nell'adattamento dei LLM a domini come Wikipedia e set di dati medici.
English
As large language models (LLMs) become increasingly deployed across various
industries, concerns regarding their reliability, particularly due to
hallucinations-outputs that are factually inaccurate or irrelevant to user
input-have grown. Our research investigates the relationship between the
training process and the emergence of hallucinations to address a key gap in
existing research that focuses primarily on post hoc detection and mitigation
strategies. Using models from the Pythia suite (70M-12B parameters) and several
hallucination detection metrics, we analyze hallucination trends throughout
training and explore LLM internal dynamics. We introduce SEnsitive Neuron
Dropout (SeND), a novel training protocol designed to mitigate hallucinations
by reducing variance during training. SeND achieves this by deterministically
dropping neurons with significant variability on a dataset, referred to as
Sensitive Neurons. In addition, we develop an unsupervised hallucination
detection metric, Efficient EigenScore (EES), which approximates the
traditional EigenScore in 2x speed. This efficient metric is integrated into
our protocol, allowing SeND to be both computationally scalable and effective
at reducing hallucinations. Our empirical evaluation demonstrates that our
approach improves LLM reliability at test time by up to 40% compared to normal
training while also providing an efficient method to improve factual accuracy
when adapting LLMs to domains such as Wikipedia and Medical datasets.Summary
AI-Generated Summary