Amigos y Abuelas in Silico: Localización de Células de Entidad en Modelos de Lenguaje

Resumen

Los modelos de lenguaje pueden responder a muchas preguntas fácticas centradas en entidades, pero aún no está claro qué mecanismos internos intervienen en este proceso. Estudiamos esta cuestión en múltiples modelos de lenguaje. Localizamos neuronas MLP selectivas de entidades utilizando *prompts* con plantillas sobre cada entidad, y luego las validamos mediante intervenciones causales en ejemplos de preguntas y respuestas basados en PopQA. En un conjunto seleccionado de 200 entidades extraídas de PopQA, las neuronas localizadas se concentran en las capas iniciales. La ablación negativa produce amnesia específica de la entidad, mientras que la inyección controlada en un *token* de marcador de posición mejora la recuperación de respuestas en comparación con los controles de entidad media y célula incorrecta. Para muchas entidades, activar una sola neurona localizada es suficiente para recuperar predicciones coherentes con la entidad una vez que el contexto se inicializa, lo que es consistente con una recuperación compacta de la entidad en lugar de un enriquecimiento puramente gradual a lo largo de la profundidad. La robustez frente a alias, acrónimos, errores ortográficos y formas multilingües respalda una interpretación de canonización. El efecto es fuerte pero no universal: no todas las entidades admiten un punto de control fiable de una sola neurona, y la cobertura es mayor para las entidades populares. En general, estos resultados identifican puntos de acceso dispersos y causalmente accionables para analizar y modular el comportamiento fáctico condicionado por entidades.

English

Language models can answer many entity-centric factual questions, but it remains unclear which internal mechanisms are involved in this process. We study this question across multiple language models. We localize entity-selective MLP neurons using templated prompts about each entity, and then validate them with causal interventions on PopQA-based QA examples. On a curated set of 200 entities drawn from PopQA, localized neurons concentrate in early layers. Negative ablation produces entity-specific amnesia, while controlled injection at a placeholder token improves answer retrieval relative to mean-entity and wrong-cell controls. For many entities, activating a single localized neuron is sufficient to recover entity-consistent predictions once the context is initialized, consistent with compact entity retrieval rather than purely gradual enrichment across depth. Robustness to aliases, acronyms, misspellings, and multilingual forms supports a canonicalization interpretation. The effect is strong but not universal: not every entity admits a reliable single-neuron handle, and coverage is higher for popular entities. Overall, these results identify sparse, causally actionable access points for analyzing and modulating entity-conditioned factual behavior.

Amigos y Abuelas in Silico: Localización de Células de Entidad en Modelos de Lenguaje

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Resumen

Support