Évaluation des effets en cascade de la modification des connaissances dans les modèles de langage
Evaluating the Ripple Effects of Knowledge Editing in Language Models
July 24, 2023
Auteurs: Roi Cohen, Eden Biran, Ori Yoran, Amir Globerson, Mor Geva
cs.AI
Résumé
Les modèles de langage modernes capturent un vaste corpus de connaissances factuelles. Cependant, certains faits peuvent être incorrectement induits ou devenir obsolètes avec le temps, entraînant des générations factuellement erronées. Cela a conduit au développement de diverses méthodes d'édition permettant de mettre à jour les faits encodés par le modèle. L'évaluation de ces méthodes s'est principalement concentrée sur la vérification de la réussite de l'injection d'un fait individuel, et sur le fait que les prédictions similaires pour d'autres sujets n'ont pas changé. Nous soutenons ici qu'une telle évaluation est limitée, car l'injection d'un seul fait (par exemple, « Jack Depp est le fils de Johnny Depp ») introduit un « effet d'ondulation » sous la forme de faits supplémentaires que le modèle doit mettre à jour (par exemple, « Jack Depp est le frère de Lily-Rose Depp »). Pour résoudre ce problème, nous proposons un nouvel ensemble de critères d'évaluation qui prennent en compte les implications d'une édition sur les faits connexes. En utilisant ces critères, nous construisons ensuite un benchmark diagnostique de 5 000 éditions factuelles, capturant une variété de types d'effets d'ondulation. Nous évaluons les méthodes d'édition les plus prometteuses sur ce benchmark, montrant que les méthodes actuelles échouent à introduire des changements cohérents dans les connaissances du modèle. De plus, nous constatons qu'une simple baseline d'édition en contexte obtient les meilleurs scores sur notre benchmark, suggérant une direction de recherche prometteuse pour l'édition de modèles.
English
Modern language models capture a large body of factual knowledge. However,
some facts can be incorrectly induced or become obsolete over time, resulting
in factually incorrect generations. This has led to the development of various
editing methods that allow updating facts encoded by the model. Evaluation of
these methods has primarily focused on testing whether an individual fact has
been successfully injected, and if similar predictions for other subjects have
not changed. Here we argue that such evaluation is limited, since injecting one
fact (e.g. ``Jack Depp is the son of Johnny Depp'') introduces a ``ripple
effect'' in the form of additional facts that the model needs to update
(e.g.``Jack Depp is the sibling of Lily-Rose Depp''). To address this issue, we
propose a novel set of evaluation criteria that consider the implications of an
edit on related facts. Using these criteria, we then construct , a
diagnostic benchmark of 5K factual edits, capturing a variety of types of
ripple effects. We evaluate prominent editing methods on , showing
that current methods fail to introduce consistent changes in the model's
knowledge. In addition, we find that a simple in-context editing baseline
obtains the best scores on our benchmark, suggesting a promising research
direction for model editing.