Desintoxicación de Alucinaciones: Deserción Sensible de Neuronas (SeND) para el Entrenamiento de Modelos de Lenguaje Grandes
Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training
October 20, 2024
Autores: Shahrad Mohammadzadeh, Juan David Guerra, Marco Bonizzato, Reihaneh Rabbany, Golnoosh Farnadi
cs.AI
Resumen
A medida que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se despliegan cada vez más en diversas industrias, han surgido preocupaciones sobre su fiabilidad, especialmente debido a las alucinaciones: salidas que son factualmente inexactas o irrelevantes para la entrada del usuario. Nuestra investigación investiga la relación entre el proceso de entrenamiento y la aparición de alucinaciones para abordar una brecha clave en la investigación existente que se centra principalmente en estrategias de detección y mitigación posteriores. Utilizando modelos de la suite Pythia (70M-12B parámetros) y varios métricas de detección de alucinaciones, analizamos las tendencias de alucinación a lo largo del entrenamiento y exploramos la dinámica interna de los LLMs. Presentamos SEnsitive Neuron Dropout (SeND), un protocolo de entrenamiento novedoso diseñado para mitigar alucinaciones al reducir la varianza durante el entrenamiento. SeND logra esto al eliminar de manera determinista neuronas con variabilidad significativa en un conjunto de datos, denominadas Neuronas Sensibles. Además, desarrollamos una métrica de detección de alucinaciones no supervisada, Efficient EigenScore (EES), que aproxima el EigenScore tradicional con el doble de velocidad. Esta métrica eficiente se integra en nuestro protocolo, lo que permite que SeND sea tanto computacionalmente escalable como efectivo para reducir alucinaciones. Nuestra evaluación empírica demuestra que nuestro enfoque mejora la fiabilidad de los LLMs en el momento de prueba hasta en un 40% en comparación con el entrenamiento normal, al mismo tiempo que proporciona un método eficiente para mejorar la precisión factual al adaptar los LLMs a dominios como Wikipedia y conjuntos de datos médicos.
English
As large language models (LLMs) become increasingly deployed across various
industries, concerns regarding their reliability, particularly due to
hallucinations-outputs that are factually inaccurate or irrelevant to user
input-have grown. Our research investigates the relationship between the
training process and the emergence of hallucinations to address a key gap in
existing research that focuses primarily on post hoc detection and mitigation
strategies. Using models from the Pythia suite (70M-12B parameters) and several
hallucination detection metrics, we analyze hallucination trends throughout
training and explore LLM internal dynamics. We introduce SEnsitive Neuron
Dropout (SeND), a novel training protocol designed to mitigate hallucinations
by reducing variance during training. SeND achieves this by deterministically
dropping neurons with significant variability on a dataset, referred to as
Sensitive Neurons. In addition, we develop an unsupervised hallucination
detection metric, Efficient EigenScore (EES), which approximates the
traditional EigenScore in 2x speed. This efficient metric is integrated into
our protocol, allowing SeND to be both computationally scalable and effective
at reducing hallucinations. Our empirical evaluation demonstrates that our
approach improves LLM reliability at test time by up to 40% compared to normal
training while also providing an efficient method to improve factual accuracy
when adapting LLMs to domains such as Wikipedia and Medical datasets.Summary
AI-Generated Summary