Desintoxicación de Alucinaciones: Deserción Sensible de Neuronas (SeND) para el Entrenamiento de Modelos de Lenguaje Grandes

Resumen

A medida que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se despliegan cada vez más en diversas industrias, han surgido preocupaciones sobre su fiabilidad, especialmente debido a las alucinaciones: salidas que son factualmente inexactas o irrelevantes para la entrada del usuario. Nuestra investigación investiga la relación entre el proceso de entrenamiento y la aparición de alucinaciones para abordar una brecha clave en la investigación existente que se centra principalmente en estrategias de detección y mitigación posteriores. Utilizando modelos de la suite Pythia (70M-12B parámetros) y varios métricas de detección de alucinaciones, analizamos las tendencias de alucinación a lo largo del entrenamiento y exploramos la dinámica interna de los LLMs. Presentamos SEnsitive Neuron Dropout (SeND), un protocolo de entrenamiento novedoso diseñado para mitigar alucinaciones al reducir la varianza durante el entrenamiento. SeND logra esto al eliminar de manera determinista neuronas con variabilidad significativa en un conjunto de datos, denominadas Neuronas Sensibles. Además, desarrollamos una métrica de detección de alucinaciones no supervisada, Efficient EigenScore (EES), que aproxima el EigenScore tradicional con el doble de velocidad. Esta métrica eficiente se integra en nuestro protocolo, lo que permite que SeND sea tanto computacionalmente escalable como efectivo para reducir alucinaciones. Nuestra evaluación empírica demuestra que nuestro enfoque mejora la fiabilidad de los LLMs en el momento de prueba hasta en un 40% en comparación con el entrenamiento normal, al mismo tiempo que proporciona un método eficiente para mejorar la precisión factual al adaptar los LLMs a dominios como Wikipedia y conjuntos de datos médicos.

English

As large language models (LLMs) become increasingly deployed across various industries, concerns regarding their reliability, particularly due to hallucinations-outputs that are factually inaccurate or irrelevant to user input-have grown. Our research investigates the relationship between the training process and the emergence of hallucinations to address a key gap in existing research that focuses primarily on post hoc detection and mitigation strategies. Using models from the Pythia suite (70M-12B parameters) and several hallucination detection metrics, we analyze hallucination trends throughout training and explore LLM internal dynamics. We introduce SEnsitive Neuron Dropout (SeND), a novel training protocol designed to mitigate hallucinations by reducing variance during training. SeND achieves this by deterministically dropping neurons with significant variability on a dataset, referred to as Sensitive Neurons. In addition, we develop an unsupervised hallucination detection metric, Efficient EigenScore (EES), which approximates the traditional EigenScore in 2x speed. This efficient metric is integrated into our protocol, allowing SeND to be both computationally scalable and effective at reducing hallucinations. Our empirical evaluation demonstrates that our approach improves LLM reliability at test time by up to 40% compared to normal training while also providing an efficient method to improve factual accuracy when adapting LLMs to domains such as Wikipedia and Medical datasets.

Desintoxicación de Alucinaciones: Deserción Sensible de Neuronas (SeND) para el Entrenamiento de Modelos de Lenguaje Grandes

Hallucination Detox: Sensitive Neuron Dropout (SeND) for Large Language Model Training

Resumen

Support