ChatPaper.aiChatPaper

Modifica sequenziale a conoscenza continua senza degradazione del modello

Lifelong Sequential Knowledge Editing without Model Degradation

February 3, 2025
Autori: Akshat Gupta, Phudish Prateepamornkul, Maochuan Lu, Ahmed Alaa, Thomas Hartvigsen, Gopala Anumanchipalli
cs.AI

Abstract

Lavori precedenti sull'editing della conoscenza tramite modifica dei parametri hanno dimostrato che la modifica sequenziale su larga scala porta a una significativa degradazione del modello. In questo articolo, studiamo le ragioni di ciò e scaliamo l'editing sequenziale della conoscenza a 10.000 modifiche sequenziali, mantenendo le prestazioni a valle del modello originale. Mostriamo innanzitutto che i metodi di editing della conoscenza "localizza-e-modifica" portano all'overfitting sui fatti modificati. Dimostriamo inoltre che l'editing continuo della conoscenza utilizzando tali metodi porta a una crescita sproporzionata della norma della matrice modificata. Forniamo quindi una visione cruciale del funzionamento interno dei metodi "localizza-e-modifica". Mostriamo che la crescita della norma è un trucco nascosto utilizzato da questi metodi che conferisce maggiore importanza alle attivazioni in output prodotte dai livelli modificati. Con questo "hacking dell'importanza", i livelli modificati forniscono un contributo molto più grande all'output del modello. Per mitigare questi problemi, presentiamo ENCORE - Editing Robusto della Conoscenza con Arresto Anticipato e Norma Vincolata. ENCORE controlla l'overfitting e la crescita sproporzionata della norma per consentire l'editing sequenziale a lungo termine, dove siamo in grado di eseguire fino a 10.000 modifiche sequenziali senza perdita delle prestazioni a valle. ENCORE è anche più veloce del 61% rispetto a MEMIT e del 64% rispetto ad AlphaEdit su Llama3-8B.
English
Prior work in parameter-modifying knowledge editing has shown that large-scale sequential editing leads to significant model degradation. In this paper, we study the reasons behind this and scale sequential knowledge editing to 10,000 sequential edits, while maintaining the downstream performance of the original model. We first show that locate-then-edit knowledge editing methods lead to overfitting on the edited facts. We also show that continuous knowledge editing using these methods leads to disproportionate growth in the norm of the edited matrix. We then provide a crucial insight into the inner workings of locate-then-edit methods. We show that norm-growth is a hidden trick employed by these methods that gives larger importance to the output activations produced from the edited layers. With this "importance hacking", the edited layers provide a much larger contributions to the model's output. To mitigate these issues, we present ENCORE - Early stopping and Norm-Constrained Robust knowledge Editing. ENCORE controls for overfitting and the disproportionate norm-growth to enable long-term sequential editing, where we are able to perform up to 10,000 sequential edits without loss of downstream performance. ENCORE is also 61% faster than MEMIT and 64% faster than AlphaEdit on Llama3-8B.

Summary

AI-Generated Summary

PDF52February 4, 2025