Друзья и бабушки в силико: локализация клеток сущностей в языковых моделях

Аннотация

Языковые модели способны отвечать на множество фактологических вопросов, ориентированных на сущности, однако остаётся неясным, какие внутренние механизмы задействованы в этом процессе. Мы исследуем этот вопрос на нескольких языковых моделях. Мы локализуем MLP-нейроны, селективные к сущностям, с помощью шаблонных промптов о каждой сущности, а затем проверяем их с помощью причинно-следственных интервенций на примерах вопросно-ответных задач на основе PopQA. На специально отобранном наборе из 200 сущностей из PopQA локализованные нейроны концентрируются в ранних слоях. Отрицательная абляция вызывает специфическую для сущности амнезию, в то время как контролируемая инъекция на месте токена-заполнителя улучшает извлечение ответа по сравнению с контролем по средней сущности и неправильной ячейке. Для многих сущностей активации одного локализованного нейрона достаточно для восстановления предсказаний, согласованных с сущностью, после инициализации контекста, что согласуется с компактным извлечением сущности, а не с чисто постепенным обогащением по глубине сети. Устойчивость к псевдонимам, акронимам, опечаткам и многоязычным формам поддерживает интерпретацию канонизации. Эффект выражен, но не универсален: не для каждой сущности существует надёжный "однонейронный" механизм доступа, и охват выше для популярных сущностей. В целом, эти результаты выявляют разреженные, причинно-действенные точки доступа для анализа и модуляции фактологического поведения, обусловленного сущностями.

English

Language models can answer many entity-centric factual questions, but it remains unclear which internal mechanisms are involved in this process. We study this question across multiple language models. We localize entity-selective MLP neurons using templated prompts about each entity, and then validate them with causal interventions on PopQA-based QA examples. On a curated set of 200 entities drawn from PopQA, localized neurons concentrate in early layers. Negative ablation produces entity-specific amnesia, while controlled injection at a placeholder token improves answer retrieval relative to mean-entity and wrong-cell controls. For many entities, activating a single localized neuron is sufficient to recover entity-consistent predictions once the context is initialized, consistent with compact entity retrieval rather than purely gradual enrichment across depth. Robustness to aliases, acronyms, misspellings, and multilingual forms supports a canonicalization interpretation. The effect is strong but not universal: not every entity admits a reliable single-neuron handle, and coverage is higher for popular entities. Overall, these results identify sparse, causally actionable access points for analyzing and modulating entity-conditioned factual behavior.

Друзья и бабушки в силико: локализация клеток сущностей в языковых моделях

Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

Аннотация

Support