ChatPaper.aiChatPaper

Levenslang sequentieel kennisbewerken zonder degradatie van het model.

Lifelong Sequential Knowledge Editing without Model Degradation

February 3, 2025
Auteurs: Akshat Gupta, Phudish Prateepamornkul, Maochuan Lu, Ahmed Alaa, Thomas Hartvigsen, Gopala Anumanchipalli
cs.AI

Samenvatting

Eerdere onderzoeken naar parameter-aanpassende kennisbewerking hebben aangetoond dat grootschalige opeenvolgende bewerkingen leiden tot aanzienlijke degradatie van het model. In dit artikel bestuderen we de redenen hiervoor en schalen we opeenvolgende kennisbewerking op tot 10.000 opeenvolgende bewerkingen, terwijl we de prestaties van het oorspronkelijke model behouden. We tonen eerst aan dat kennisbewerkingsmethoden waarbij eerst wordt gelokaliseerd en vervolgens bewerkt leiden tot overpassing op de bewerkte feiten. We tonen ook aan dat continue kennisbewerking met behulp van deze methoden leidt tot een onevenredige groei in de norm van de bewerkte matrix. Vervolgens geven we een cruciaal inzicht in de werking van de eerst lokaliseren en dan bewerken methoden. We tonen aan dat normgroei een verborgen truc is die door deze methoden wordt toegepast en die meer belang hecht aan de uitvoeractivaties die worden geproduceerd vanuit de bewerkte lagen. Met deze "belangrijkheidshack" leveren de bewerkte lagen een veel grotere bijdrage aan de uitvoer van het model. Om deze problemen te verminderen, presenteren we ENCORE - Vroegtijdig stoppen en Norm-Beperkte Robuuste kennisbewerking. ENCORE controleert op overpassing en de onevenredige normgroei om langdurige opeenvolgende bewerkingen mogelijk te maken, waarbij we tot 10.000 opeenvolgende bewerkingen kunnen uitvoeren zonder verlies van prestaties. ENCORE is ook 61% sneller dan MEMIT en 64% sneller dan AlphaEdit op Llama3-8B.
English
Prior work in parameter-modifying knowledge editing has shown that large-scale sequential editing leads to significant model degradation. In this paper, we study the reasons behind this and scale sequential knowledge editing to 10,000 sequential edits, while maintaining the downstream performance of the original model. We first show that locate-then-edit knowledge editing methods lead to overfitting on the edited facts. We also show that continuous knowledge editing using these methods leads to disproportionate growth in the norm of the edited matrix. We then provide a crucial insight into the inner workings of locate-then-edit methods. We show that norm-growth is a hidden trick employed by these methods that gives larger importance to the output activations produced from the edited layers. With this "importance hacking", the edited layers provide a much larger contributions to the model's output. To mitigate these issues, we present ENCORE - Early stopping and Norm-Constrained Robust knowledge Editing. ENCORE controls for overfitting and the disproportionate norm-growth to enable long-term sequential editing, where we are able to perform up to 10,000 sequential edits without loss of downstream performance. ENCORE is also 61% faster than MEMIT and 64% faster than AlphaEdit on Llama3-8B.

Summary

AI-Generated Summary

PDF52February 4, 2025