Valutazione degli Effetti a Catena della Modifica della Conoscenza nei Modelli Linguistici
Evaluating the Ripple Effects of Knowledge Editing in Language Models
July 24, 2023
Autori: Roi Cohen, Eden Biran, Ori Yoran, Amir Globerson, Mor Geva
cs.AI
Abstract
I moderni modelli linguistici catturano un ampio corpus di conoscenze fattuali. Tuttavia, alcuni fatti possono essere indotti in modo errato o diventare obsoleti nel tempo, portando a generazioni fattualmente inesatte. Ciò ha portato allo sviluppo di vari metodi di modifica che consentono di aggiornare i fatti codificati dal modello. La valutazione di questi metodi si è principalmente concentrata sul testare se un singolo fatto è stato correttamente iniettato e se le previsioni simili per altri soggetti non sono cambiate. Qui sosteniamo che tale valutazione è limitata, poiché l'iniezione di un fatto (ad esempio, "Jack Depp è il figlio di Johnny Depp") introduce un "effetto a catena" sotto forma di ulteriori fatti che il modello deve aggiornare (ad esempio, "Jack Depp è il fratello di Lily-Rose Depp"). Per affrontare questo problema, proponiamo un nuovo insieme di criteri di valutazione che considerano le implicazioni di una modifica sui fatti correlati. Utilizzando questi criteri, costruiamo quindi un benchmark diagnostico di 5.000 modifiche fattuali, che cattura una varietà di tipi di effetti a catena. Valutiamo i principali metodi di modifica su questo benchmark, dimostrando che i metodi attuali non riescono a introdurre cambiamenti coerenti nella conoscenza del modello. Inoltre, scopriamo che una semplice baseline di modifica in-context ottiene i migliori punteggi sul nostro benchmark, suggerendo una promettente direzione di ricerca per la modifica dei modelli.
English
Modern language models capture a large body of factual knowledge. However,
some facts can be incorrectly induced or become obsolete over time, resulting
in factually incorrect generations. This has led to the development of various
editing methods that allow updating facts encoded by the model. Evaluation of
these methods has primarily focused on testing whether an individual fact has
been successfully injected, and if similar predictions for other subjects have
not changed. Here we argue that such evaluation is limited, since injecting one
fact (e.g. ``Jack Depp is the son of Johnny Depp'') introduces a ``ripple
effect'' in the form of additional facts that the model needs to update
(e.g.``Jack Depp is the sibling of Lily-Rose Depp''). To address this issue, we
propose a novel set of evaluation criteria that consider the implications of an
edit on related facts. Using these criteria, we then construct , a
diagnostic benchmark of 5K factual edits, capturing a variety of types of
ripple effects. We evaluate prominent editing methods on , showing
that current methods fail to introduce consistent changes in the model's
knowledge. In addition, we find that a simple in-context editing baseline
obtains the best scores on our benchmark, suggesting a promising research
direction for model editing.