Freunde und Großmütter in Silico: Die Lokalisierung von Entitätszellen in Sprachmodellen

Zusammenfassung

Sprachmodelle können viele entitätszentrierte faktische Fragen beantworten, doch es bleibt unklar, welche internen Mechanismen an diesem Prozess beteiligt sind. Wir untersuchen diese Frage anhand mehrerer Sprachmodelle. Wir lokalisieren entitätsselektive MLP-Neuronen mithilfe von templategesteuerten Prompts für jede Entität und validieren sie anschließend mit kausalen Interventionen an PopQA-basierten QA-Beispielen. Auf einem kuratierten Satz von 200 Entitäten aus PopQA konzentrieren sich die lokalisierten Neuronen in frühen Schichten. Negative Ablation führt zu entitätsspezifischer Amnesie, während eine kontrollierte Injektion an einem Platzhalter-Token die Antwortabfrage im Vergleich zu Mittelwert-Entitäts- und falschen-Zellen-Kontrollen verbessert. Für viele Entitäten reicht die Aktivierung eines einzigen lokalisierten Neurons aus, um entitätskonsistente Vorhersagen zu erhalten, sobald der Kontext initialisiert ist, was mit einer kompakten Entitätsabfrage und nicht mit einer rein graduellen Anreicherung über die Tiefe hinweg vereinbar ist. Die Robustheit gegenüber Aliasen, Akronymen, Tippfehlern und mehrsprachigen Formen unterstützt eine Kanonisierungsinterpretation. Der Effekt ist stark, aber nicht universell: Nicht jede Entität lässt sich durch einen zuverlässigen Einzelneuronen-Zugriffspunkt erfassen, und die Abdeckung ist für populäre Entitäten höher. Insgesamt identifizieren diese Ergebnisse spärliche, kausal handhabbare Zugriffspunkte zur Analyse und Modulation von entitätsbedingtem faktischem Verhalten.

English

Language models can answer many entity-centric factual questions, but it remains unclear which internal mechanisms are involved in this process. We study this question across multiple language models. We localize entity-selective MLP neurons using templated prompts about each entity, and then validate them with causal interventions on PopQA-based QA examples. On a curated set of 200 entities drawn from PopQA, localized neurons concentrate in early layers. Negative ablation produces entity-specific amnesia, while controlled injection at a placeholder token improves answer retrieval relative to mean-entity and wrong-cell controls. For many entities, activating a single localized neuron is sufficient to recover entity-consistent predictions once the context is initialized, consistent with compact entity retrieval rather than purely gradual enrichment across depth. Robustness to aliases, acronyms, misspellings, and multilingual forms supports a canonicalization interpretation. The effect is strong but not universal: not every entity admits a reliable single-neuron handle, and coverage is higher for popular entities. Overall, these results identify sparse, causally actionable access points for analyzing and modulating entity-conditioned factual behavior.

Freunde und Großmütter in Silico: Die Lokalisierung von Entitätszellen in Sprachmodellen

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Zusammenfassung

Support