ACE: Edição de Conhecimento Controlada por Atribuição para Recuperação de Fatos Multi-hop

Resumo

Modelos de Linguagem de Grande Escala (LLMs) exigem edição eficiente de conhecimento (KE) para atualizar informações factuais, mas os métodos existentes apresentam uma deterioração significativa no recall factual multi-hop. Essa falha é particularmente aguda quando as edições envolvem sujeitos intermediários implícitos dentro de cadeias de raciocínio. Através de análise causal, revelamos que essa limitação decorre de uma negligência em relação à forma como o conhecimento encadeado é dinamicamente representado e utilizado no nível dos neurônios. Descobrimos que, durante o raciocínio multi-hop, sujeitos implícitos funcionam como neurônios de consulta, que ativam sequencialmente neurônios de valor correspondentes através das camadas do transformador para acumular informações em direção à resposta final, um aspecto dinâmico que trabalhos anteriores de KE ignoraram. Guiados por essa percepção, propomos o ACE: Edição de Conhecimento Controlada por Atribuição para Recall Fatorial Multi-hop, um framework que aproveita a atribuição no nível dos neurônios para identificar e editar essas vias críticas de consulta-valor (Q-V). O ACE oferece uma solução mecanicamente fundamentada para KE multi-hop, superando empiricamente os métodos state-of-the-art em 9,44% no GPT-J e 37,46% no Qwen3-8B. Nossa análise revela ainda padrões de ativação mais refinados no Qwen3 e demonstra que a interpretabilidade semântica dos neurônios de valor é orquestrada pela acumulação orientada por consultas. Essas descobertas estabelecem um novo caminho para avançar as capacidades de KE com base no entendimento fundamentado dos mecanismos internos de raciocínio.

English

Large Language Models (LLMs) require efficient knowledge editing (KE) to update factual information, yet existing methods exhibit significant performance decay in multi-hop factual recall. This failure is particularly acute when edits involve intermediate implicit subjects within reasoning chains. Through causal analysis, we reveal that this limitation stems from an oversight of how chained knowledge is dynamically represented and utilized at the neuron level. We discover that during multi hop reasoning, implicit subjects function as query neurons, which sequentially activate corresponding value neurons across transformer layers to accumulate information toward the final answer, a dynamic prior KE work has overlooked. Guided by this insight, we propose ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall, a framework that leverages neuron-level attribution to identify and edit these critical query-value (Q-V) pathways. ACE provides a mechanistically grounded solution for multi-hop KE, empirically outperforming state-of-the-art methods by 9.44% on GPT-J and 37.46% on Qwen3-8B. Our analysis further reveals more fine-grained activation patterns in Qwen3 and demonstrates that the semantic interpretability of value neurons is orchestrated by query-driven accumulation. These findings establish a new pathway for advancing KE capabilities based on the principled understanding of internal reasoning mechanisms.