Amis et Grands-Mères In Silico : Localisation des Cellules d'Entité dans les Modèles de Langage

Résumé

Les modèles de langage peuvent répondre à de nombreuses questions factuelles centrées sur des entités, mais les mécanismes internes impliqués dans ce processus restent mal compris. Nous étudions cette question à travers plusieurs modèles de langage. Nous localisons des neurones MLP sélectifs aux entités en utilisant des invites modélisées concernant chaque entité, puis nous les validons par des interventions causales sur des exemples de questions-réponses basés sur PopQA. Sur un ensemble curatisé de 200 entités tirées de PopQA, les neurones localisés se concentrent dans les couches précoces. L'ablation négative produit une amnésie spécifique à l'entité, tandis que l'injection contrôlée sur un token placeholder améliore la récupération des réponses par rapport à des contrôles d'entité moyenne et de cellule erronée. Pour de nombreuses entités, l'activation d'un seul neurone localisé suffit à rétablir des prédictions cohérentes avec l'entité une fois le contexte initialisé, ce qui correspond à une récupération compacte de l'entité plutôt qu'à un enrichissement purement graduel en profondeur. La robustesse aux alias, acronymes, fautes d'orthographe et formes multilingues soutient une interprétation par canonicalisation. L'effet est fort mais pas universel : toutes les entités n'admettent pas un point d'accès fiable à un seul neurone, et la couverture est plus élevée pour les entités populaires. Globalement, ces résultats identifient des points d'accès épars et causalement actionnables pour analyser et moduler le comportement factuel conditionné par les entités.

English

Language models can answer many entity-centric factual questions, but it remains unclear which internal mechanisms are involved in this process. We study this question across multiple language models. We localize entity-selective MLP neurons using templated prompts about each entity, and then validate them with causal interventions on PopQA-based QA examples. On a curated set of 200 entities drawn from PopQA, localized neurons concentrate in early layers. Negative ablation produces entity-specific amnesia, while controlled injection at a placeholder token improves answer retrieval relative to mean-entity and wrong-cell controls. For many entities, activating a single localized neuron is sufficient to recover entity-consistent predictions once the context is initialized, consistent with compact entity retrieval rather than purely gradual enrichment across depth. Robustness to aliases, acronyms, misspellings, and multilingual forms supports a canonicalization interpretation. The effect is strong but not universal: not every entity admits a reliable single-neuron handle, and coverage is higher for popular entities. Overall, these results identify sparse, causally actionable access points for analyzing and modulating entity-conditioned factual behavior.

Amis et Grands-Mères In Silico : Localisation des Cellules d'Entité dans les Modèles de Langage

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Résumé

Support