¿Conozco a esta entidad? Conciencia del conocimiento y alucinaciones en Modelos de Lenguaje
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models
November 21, 2024
Autores: Javier Ferrando, Oscar Obeso, Senthooran Rajamanoharan, Neel Nanda
cs.AI
Resumen
Las alucinaciones en los grandes modelos de lenguaje son un problema generalizado, sin embargo, los mecanismos detrás de si los modelos alucinarán son poco comprendidos, lo que limita nuestra capacidad para resolver este problema. Utilizando autoencoders dispersos como una herramienta de interpretabilidad, descubrimos que una parte clave de estos mecanismos es el reconocimiento de entidades, donde el modelo detecta si una entidad es una de la que puede recordar hechos. Los autoencoders dispersos descubren direcciones significativas en el espacio de representación, las cuales detectan si el modelo reconoce una entidad, por ejemplo, detectando que no conoce a un atleta o una película. Esto sugiere que los modelos pueden tener autoconocimiento: representaciones internas sobre sus propias capacidades. Estas direcciones son relevantes causalmente: capaces de guiar al modelo para que se niegue a responder preguntas sobre entidades conocidas, o para alucinar atributos de entidades desconocidas cuando de otro modo se negaría. Demostramos que a pesar de que los autoencoders dispersos fueron entrenados en el modelo base, estas direcciones tienen un efecto causal en el comportamiento de rechazo del modelo de chat, lo que sugiere que el ajuste fino del chat ha reutilizado este mecanismo existente. Además, proporcionamos una exploración inicial del papel mecanicista de estas direcciones en el modelo, encontrando que interrumpen la atención de las cabezas descendentes que típicamente mueven atributos de entidades al token final.
English
Hallucinations in large language models are a widespread problem, yet the
mechanisms behind whether models will hallucinate are poorly understood,
limiting our ability to solve this problem. Using sparse autoencoders as an
interpretability tool, we discover that a key part of these mechanisms is
entity recognition, where the model detects if an entity is one it can recall
facts about. Sparse autoencoders uncover meaningful directions in the
representation space, these detect whether the model recognizes an entity, e.g.
detecting it doesn't know about an athlete or a movie. This suggests that
models can have self-knowledge: internal representations about their own
capabilities. These directions are causally relevant: capable of steering the
model to refuse to answer questions about known entities, or to hallucinate
attributes of unknown entities when it would otherwise refuse. We demonstrate
that despite the sparse autoencoders being trained on the base model, these
directions have a causal effect on the chat model's refusal behavior,
suggesting that chat finetuning has repurposed this existing mechanism.
Furthermore, we provide an initial exploration into the mechanistic role of
these directions in the model, finding that they disrupt the attention of
downstream heads that typically move entity attributes to the final token.Summary
AI-Generated Summary