ChatPaper.aiChatPaper

Disintossicazione dall'allucinazione: Dropout Sensibile ai Neuroni (SeND) per l'Addestramento di Grandi Modelli Linguistici

Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training

October 20, 2024
Autori: Shahrad Mohammadzadeh, Juan David Guerra, Marco Bonizzato, Reihaneh Rabbany, Golnoosh Farnadi
cs.AI

Abstract

Con l'aumento dell'utilizzo sempre più diffuso dei grandi modelli linguistici (LLM) in varie industrie, sono cresciute le preoccupazioni sulla loro affidabilità, in particolare a causa delle allucinazioni, ossia delle uscite che sono factualmente inaccurate o non pertinenti all'input dell'utente. La nostra ricerca indaga il rapporto tra il processo di addestramento e l'emergere delle allucinazioni per affrontare una lacuna chiave nella ricerca esistente che si concentra principalmente sulle strategie di rilevamento e mitigazione post hoc. Utilizzando modelli della suite Pythia (70M-12B parametri) e diversi indicatori di rilevamento delle allucinazioni, analizziamo le tendenze delle allucinazioni durante l'addestramento ed esploriamo le dinamiche interne dei LLM. Introduciamo SEnsitive Neuron Dropout (SeND), un nuovo protocollo di addestramento progettato per mitigare le allucinazioni riducendo la varianza durante l'addestramento. SeND raggiunge questo obiettivo eliminando deterministicamente i neuroni con significativa variabilità su un insieme di dati, chiamati Neuroni Sensibili. Inoltre, sviluppiamo un indicatore di rilevamento delle allucinazioni non supervisionato, Efficient EigenScore (EES), che approssima l'EigenScore tradizionale con una velocità doppia. Questo indicatore efficiente è integrato nel nostro protocollo, consentendo a SeND di essere sia scalabile computazionalmente che efficace nel ridurre le allucinazioni. La nostra valutazione empirica dimostra che il nostro approccio migliora l'affidabilità dei LLM al momento del test fino al 40% rispetto all'addestramento normale, fornendo anche un metodo efficiente per migliorare l'accuratezza fattuale nell'adattamento dei LLM a domini come Wikipedia e set di dati medici.
English
As large language models (LLMs) become increasingly deployed across various industries, concerns regarding their reliability, particularly due to hallucinations-outputs that are factually inaccurate or irrelevant to user input-have grown. Our research investigates the relationship between the training process and the emergence of hallucinations to address a key gap in existing research that focuses primarily on post hoc detection and mitigation strategies. Using models from the Pythia suite (70M-12B parameters) and several hallucination detection metrics, we analyze hallucination trends throughout training and explore LLM internal dynamics. We introduce SEnsitive Neuron Dropout (SeND), a novel training protocol designed to mitigate hallucinations by reducing variance during training. SeND achieves this by deterministically dropping neurons with significant variability on a dataset, referred to as Sensitive Neurons. In addition, we develop an unsupervised hallucination detection metric, Efficient EigenScore (EES), which approximates the traditional EigenScore in 2x speed. This efficient metric is integrated into our protocol, allowing SeND to be both computationally scalable and effective at reducing hallucinations. Our empirical evaluation demonstrates that our approach improves LLM reliability at test time by up to 40% compared to normal training while also providing an efficient method to improve factual accuracy when adapting LLMs to domains such as Wikipedia and Medical datasets.

Summary

AI-Generated Summary

PDF12November 16, 2024