ChatPaper.aiChatPaper

Neuronas de Regulación de Confianza en Modelos de Lenguaje

Confidence Regulation Neurons in Language Models

June 24, 2024
Autores: Alessandro Stolfo, Ben Wu, Wes Gurnee, Yonatan Belinkov, Xingyi Song, Mrinmaya Sachan, Neel Nanda
cs.AI

Resumen

A pesar de su uso generalizado, los mecanismos mediante los cuales los modelos de lenguaje de gran escala (LLMs) representan y regulan la incertidumbre en las predicciones del siguiente token siguen siendo en gran parte desconocidos. Este estudio investiga dos componentes críticos que se cree influyen en esta incertidumbre: las neuronas de entropía, descubiertas recientemente, y un nuevo conjunto de componentes que denominamos neuronas de frecuencia de token. Las neuronas de entropía se caracterizan por una norma de peso inusualmente alta e influyen en la escala de normalización de la capa final (LayerNorm) para reducir efectivamente los logits. Nuestro trabajo demuestra que las neuronas de entropía operan escribiendo en un espacio nulo de desincrustación, lo que les permite afectar la norma del flujo residual con un efecto directo mínimo en los logits mismos. Observamos la presencia de neuronas de entropía en una variedad de modelos, de hasta 7 mil millones de parámetros. Por otro lado, las neuronas de frecuencia de token, que descubrimos y describimos aquí por primera vez, aumentan o suprimen el logit de cada token proporcionalmente a su frecuencia logarítmica, desplazando así la distribución de salida hacia o lejos de la distribución unigrama. Finalmente, presentamos un estudio de caso detallado donde las neuronas de entropía gestionan activamente la confianza en el contexto de la inducción, es decir, detectando y continuando subsecuencias repetidas.
English
Despite their widespread use, the mechanisms by which large language models (LLMs) represent and regulate uncertainty in next-token predictions remain largely unexplored. This study investigates two critical components believed to influence this uncertainty: the recently discovered entropy neurons and a new set of components that we term token frequency neurons. Entropy neurons are characterized by an unusually high weight norm and influence the final layer normalization (LayerNorm) scale to effectively scale down the logits. Our work shows that entropy neurons operate by writing onto an unembedding null space, allowing them to impact the residual stream norm with minimal direct effect on the logits themselves. We observe the presence of entropy neurons across a range of models, up to 7 billion parameters. On the other hand, token frequency neurons, which we discover and describe here for the first time, boost or suppress each token's logit proportionally to its log frequency, thereby shifting the output distribution towards or away from the unigram distribution. Finally, we present a detailed case study where entropy neurons actively manage confidence in the setting of induction, i.e. detecting and continuing repeated subsequences.

Summary

AI-Generated Summary

PDF101November 29, 2024