Het evalueren van de rimpel effecten van kennisbewerking in taalmodelen
Evaluating the Ripple Effects of Knowledge Editing in Language Models
July 24, 2023
Auteurs: Roi Cohen, Eden Biran, Ori Yoran, Amir Globerson, Mor Geva
cs.AI
Samenvatting
Moderne taalmodellen bevatten een grote hoeveelheid feitelijke kennis. Echter,
sommige feiten kunnen onjuist worden afgeleid of verouderen na verloop van tijd, wat resulteert
in feitelijk onjuiste generaties. Dit heeft geleid tot de ontwikkeling van verschillende
bewerkingsmethoden die het mogelijk maken om feiten die in het model zijn vastgelegd bij te werken. Evaluatie van
deze methoden heeft zich voornamelijk gericht op het testen of een individueel feit
succesvol is geïnjecteerd, en of vergelijkbare voorspellingen voor andere onderwerpen
niet zijn veranderd. Hier stellen wij dat een dergelijke evaluatie beperkt is, aangezien het injecteren van één
feit (bijvoorbeeld ``Jack Depp is de zoon van Johnny Depp'') een ``rimpelingseffect''
introduceert in de vorm van aanvullende feiten die het model moet bijwerken
(bijvoorbeeld ``Jack Depp is de broer of zus van Lily-Rose Depp''). Om dit probleem aan te pakken, stellen wij
een nieuwe set evaluatiecriteria voor die de implicaties van een
bewerking op gerelateerde feiten in overweging nemen. Met behulp van deze criteria construeren wij vervolgens ,
een diagnostische benchmark van 5K feitelijke bewerkingen, die een verscheidenheid aan soorten
rimpelingseffecten vastlegt. Wij evalueren prominente bewerkingsmethoden op , en tonen aan
dat huidige methoden er niet in slagen consistente veranderingen in de kennis van het model aan te brengen. Daarnaast
vinden wij dat een eenvoudige in-context bewerkingsbaseline de beste scores behaalt op onze benchmark, wat een veelbelovende
onderzoeksrichting voor modelbewerking suggereert.
English
Modern language models capture a large body of factual knowledge. However,
some facts can be incorrectly induced or become obsolete over time, resulting
in factually incorrect generations. This has led to the development of various
editing methods that allow updating facts encoded by the model. Evaluation of
these methods has primarily focused on testing whether an individual fact has
been successfully injected, and if similar predictions for other subjects have
not changed. Here we argue that such evaluation is limited, since injecting one
fact (e.g. ``Jack Depp is the son of Johnny Depp'') introduces a ``ripple
effect'' in the form of additional facts that the model needs to update
(e.g.``Jack Depp is the sibling of Lily-Rose Depp''). To address this issue, we
propose a novel set of evaluation criteria that consider the implications of an
edit on related facts. Using these criteria, we then construct , a
diagnostic benchmark of 5K factual edits, capturing a variety of types of
ripple effects. We evaluate prominent editing methods on , showing
that current methods fail to introduce consistent changes in the model's
knowledge. In addition, we find that a simple in-context editing baseline
obtains the best scores on our benchmark, suggesting a promising research
direction for model editing.