Vrienden en Grootmoeders in Silico: Het Lokaliseren van Entiteitscellen in Taalmodellen

Samenvatting

Taalmodellen kunnen veel feitelijke vragen over entiteiten beantwoorden, maar het blijft onduidelijk welke interne mechanismen bij dit proces betrokken zijn. Wij bestuderen deze vraag bij meerdere taalmodellen. We lokaliseren entiteit-selectieve MLP-neuronen met behulp van getemplateerde prompts voor elke entiteit, en valideren ze vervolgens met causale interventies op PopQA-gebaseerde vraag-antwoordvoorbeelden. Op een gecureerde set van 200 entiteiten uit PopQA concentreren gelokaliseerde neuronen zich in de vroege lagen. Negatieve ablatie veroorzaakt entiteit-specifieke amnesie, terwijl gecontroleerde injectie bij een placeholder-token de antwoordretrieval verbetert ten opzichte van gemiddelde-entiteit- en verkeerde-cel-controles. Voor veel entiteiten is het activeren van één gelokaliseerd neuron voldoende om entiteit-consistente voorspellingen te herstellen zodra de context is geïnitialiseerd, in overeenstemming met compacte entiteitretrieval in plaats van puur geleidelijke verrijking over de diepte heen. Robuustheid tegen aliassen, acroniemen, spelfouten en meertalige vormen ondersteunt een canonicalisatie-interpretatie. Het effect is sterk maar niet universeel: niet elke entiteit laat een betrouwbaar enkel-neuron-handvat toe, en de dekking is hoger voor populaire entiteiten. Over het algemeen identificeren deze resultaten schaarse, causaal inzetbare toegangspunten voor het analyseren en moduleren van entiteit-geconditioneerd feitelijk gedrag.

English

Language models can answer many entity-centric factual questions, but it remains unclear which internal mechanisms are involved in this process. We study this question across multiple language models. We localize entity-selective MLP neurons using templated prompts about each entity, and then validate them with causal interventions on PopQA-based QA examples. On a curated set of 200 entities drawn from PopQA, localized neurons concentrate in early layers. Negative ablation produces entity-specific amnesia, while controlled injection at a placeholder token improves answer retrieval relative to mean-entity and wrong-cell controls. For many entities, activating a single localized neuron is sufficient to recover entity-consistent predictions once the context is initialized, consistent with compact entity retrieval rather than purely gradual enrichment across depth. Robustness to aliases, acronyms, misspellings, and multilingual forms supports a canonicalization interpretation. The effect is strong but not universal: not every entity admits a reliable single-neuron handle, and coverage is higher for popular entities. Overall, these results identify sparse, causally actionable access points for analyzing and modulating entity-conditioned factual behavior.

Vrienden en Grootmoeders in Silico: Het Lokaliseren van Entiteitscellen in Taalmodellen

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Samenvatting

Support