ACE : Édition de connaissances contrôlée par l'attribution pour la récupération de faits multi-sauts

papers.abstract

Les grands modèles de langage (LLMs) nécessitent une édition de connaissances (KE) efficace pour mettre à jour les informations factuelles, mais les méthodes existantes présentent une dégradation significative des performances dans le rappel de faits multi-étapes. Cet échec est particulièrement marqué lorsque les modifications impliquent des sujets implicites intermédiaires dans les chaînes de raisonnement. Grâce à une analyse causale, nous révélons que cette limitation découle d'une négligence dans la représentation et l'utilisation dynamiques des connaissances enchaînées au niveau des neurones. Nous découvrons que lors d'un raisonnement multi-étapes, les sujets implicites fonctionnent comme des neurones de requête, qui activent séquentiellement les neurones de valeur correspondants à travers les couches du transformateur pour accumuler les informations vers la réponse finale, une dynamique que les travaux précédents en KE ont négligée. Guidés par cette observation, nous proposons ACE : Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall, un cadre qui exploite l'attribution au niveau des neurones pour identifier et éditer ces voies critiques de requête-valeur (Q-V). ACE offre une solution mécaniquement fondée pour la KE multi-étapes, surpassant empiriquement les méthodes de pointe de 9,44 % sur GPT-J et de 37,46 % sur Qwen3-8B. Notre analyse révèle en outre des modèles d'activation plus fins dans Qwen3 et démontre que l'interprétabilité sémantique des neurones de valeur est orchestrée par une accumulation pilotée par la requête. Ces résultats établissent une nouvelle voie pour faire progresser les capacités de KE en s'appuyant sur une compréhension principielle des mécanismes internes de raisonnement.

English

Large Language Models (LLMs) require efficient knowledge editing (KE) to update factual information, yet existing methods exhibit significant performance decay in multi-hop factual recall. This failure is particularly acute when edits involve intermediate implicit subjects within reasoning chains. Through causal analysis, we reveal that this limitation stems from an oversight of how chained knowledge is dynamically represented and utilized at the neuron level. We discover that during multi hop reasoning, implicit subjects function as query neurons, which sequentially activate corresponding value neurons across transformer layers to accumulate information toward the final answer, a dynamic prior KE work has overlooked. Guided by this insight, we propose ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall, a framework that leverages neuron-level attribution to identify and edit these critical query-value (Q-V) pathways. ACE provides a mechanistically grounded solution for multi-hop KE, empirically outperforming state-of-the-art methods by 9.44% on GPT-J and 37.46% on Qwen3-8B. Our analysis further reveals more fine-grained activation patterns in Qwen3 and demonstrates that the semantic interpretability of value neurons is orchestrated by query-driven accumulation. These findings establish a new pathway for advancing KE capabilities based on the principled understanding of internal reasoning mechanisms.