ACE: Modifica della Conoscenza con Controllo dell'Attribuzione per il Richiamo di Fatti Multi-hop

Abstract

I modelli linguistici di grandi dimensioni (LLM) richiedono un'edizione efficiente della conoscenza (Knowledge Editing, KE) per aggiornare le informazioni fattuali, tuttavia i metodi esistenti mostrano un significativo decadimento delle prestazioni nel richiamo di fatti multi-hop. Questo fallimento è particolarmente evidente quando le modifiche coinvolgono soggetti intermedi impliciti all'interno delle catene di ragionamento. Attraverso un'analisi causale, riveliamo che questa limitazione deriva da una mancata considerazione di come la conoscenza concatenata sia rappresentata e utilizzata dinamicamente a livello neuronale. Scopriamo che durante il ragionamento multi-hop, i soggetti impliciti funzionano come neuroni di query, che attivano sequenzialmente i corrispondenti neuroni di valore attraverso i livelli del trasformatore per accumulare informazioni verso la risposta finale, un aspetto dinamico che il lavoro precedente di KE ha trascurato. Guidati da questa intuizione, proponiamo ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall, un framework che sfrutta l'attribuzione a livello neuronale per identificare e modificare questi percorsi critici query-valore (Q-V). ACE fornisce una soluzione meccanicamente fondata per il KE multi-hop, superando empiricamente i metodi all'avanguardia del 9,44% su GPT-J e del 37,46% su Qwen3-8B. La nostra analisi rivela inoltre schemi di attivazione più granulari in Qwen3 e dimostra che l'interpretabilità semantica dei neuroni di valore è orchestrata dall'accumulo guidato dalle query. Questi risultati stabiliscono una nuova via per avanzare le capacità di KE basandosi su una comprensione principiata dei meccanismi interni di ragionamento.

English

Large Language Models (LLMs) require efficient knowledge editing (KE) to update factual information, yet existing methods exhibit significant performance decay in multi-hop factual recall. This failure is particularly acute when edits involve intermediate implicit subjects within reasoning chains. Through causal analysis, we reveal that this limitation stems from an oversight of how chained knowledge is dynamically represented and utilized at the neuron level. We discover that during multi hop reasoning, implicit subjects function as query neurons, which sequentially activate corresponding value neurons across transformer layers to accumulate information toward the final answer, a dynamic prior KE work has overlooked. Guided by this insight, we propose ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall, a framework that leverages neuron-level attribution to identify and edit these critical query-value (Q-V) pathways. ACE provides a mechanistically grounded solution for multi-hop KE, empirically outperforming state-of-the-art methods by 9.44% on GPT-J and 37.46% on Qwen3-8B. Our analysis further reveals more fine-grained activation patterns in Qwen3 and demonstrates that the semantic interpretability of value neurons is orchestrated by query-driven accumulation. These findings establish a new pathway for advancing KE capabilities based on the principled understanding of internal reasoning mechanisms.