Amigos e Avós In Silico: Localizando Células de Entidades em Modelos de Linguagem

Resumo

Os modelos de linguagem podem responder a muitas questões factuais centradas em entidades, mas permanece incerto quais mecanismos internos estão envolvidos nesse processo. Investigamos esta questão em vários modelos de linguagem. Localizamos neurónios MLP seletivos de entidades utilizando *prompts* modelados sobre cada entidade e, em seguida, validamo-los com intervenções causais em exemplos de perguntas e respostas baseados no PopQA. Num conjunto curado de 200 entidades extraídas do PopQA, os neurónios localizados concentram-se nas camadas iniciais. A ablação negativa produz amnésia específica da entidade, enquanto a injeção controlada num *token* de marcador de posição melhora a recuperação da resposta em relação aos controlos de entidade média e de célula incorreta. Para muitas entidades, ativar um único neurónio localizado é suficiente para recuperar previsões consistentes com a entidade, uma vez que o contexto é inicializado, o que é consistente com uma recuperação compacta de entidades em vez de um enriquecimento puramente gradual ao longo da profundidade. A robustez a pseudónimos, acrónimos, erros ortográficos e formas multilingues apoia uma interpretação de canonização. O efeito é forte, mas não universal: nem todas as entidades admitem um único neurónio controlador fiável, e a cobertura é maior para entidades populares. Globalmente, estes resultados identificam pontos de acesso esparsos e causalmente acionáveis para analisar e modular o comportamento factual condicionado por entidades.

English

Language models can answer many entity-centric factual questions, but it remains unclear which internal mechanisms are involved in this process. We study this question across multiple language models. We localize entity-selective MLP neurons using templated prompts about each entity, and then validate them with causal interventions on PopQA-based QA examples. On a curated set of 200 entities drawn from PopQA, localized neurons concentrate in early layers. Negative ablation produces entity-specific amnesia, while controlled injection at a placeholder token improves answer retrieval relative to mean-entity and wrong-cell controls. For many entities, activating a single localized neuron is sufficient to recover entity-consistent predictions once the context is initialized, consistent with compact entity retrieval rather than purely gradual enrichment across depth. Robustness to aliases, acronyms, misspellings, and multilingual forms supports a canonicalization interpretation. The effect is strong but not universal: not every entity admits a reliable single-neuron handle, and coverage is higher for popular entities. Overall, these results identify sparse, causally actionable access points for analyzing and modulating entity-conditioned factual behavior.

Amigos e Avós In Silico: Localizando Células de Entidades em Modelos de Linguagem

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Resumo

Support