Bewertung der Auswirkungen von Wissensbearbeitung in Sprachmodellen
Evaluating the Ripple Effects of Knowledge Editing in Language Models
July 24, 2023
Autoren: Roi Cohen, Eden Biran, Ori Yoran, Amir Globerson, Mor Geva
cs.AI
Zusammenfassung
Moderne Sprachmodelle erfassen eine große Menge an faktischem Wissen. Einige Fakten können jedoch falsch abgeleitet oder im Laufe der Zeit veraltet sein, was zu faktisch inkorrekten Generierungen führt. Dies hat zur Entwicklung verschiedener Bearbeitungsmethoden geführt, die es ermöglichen, im Modell kodierte Fakten zu aktualisieren. Die Bewertung dieser Methoden konzentrierte sich bisher hauptsächlich darauf, zu testen, ob ein einzelner Fakt erfolgreich eingefügt wurde und ob ähnliche Vorhersagen für andere Subjekte unverändert geblieben sind. Hier argumentieren wir, dass eine solche Bewertung begrenzt ist, da das Einfügen eines Fakts (z. B. „Jack Depp ist der Sohn von Johnny Depp“) einen „Ripple-Effekt“ in Form zusätzlicher Fakten auslöst, die das Modell aktualisieren muss (z. B. „Jack Depp ist der Bruder von Lily-Rose Depp“). Um dieses Problem zu adressieren, schlagen wir ein neuartiges Set von Bewertungskriterien vor, das die Auswirkungen einer Bearbeitung auf verwandte Fakten berücksichtigt. Mit diesen Kriterien konstruieren wir dann einen diagnostischen Benchmark von 5.000 faktischen Bearbeitungen, der eine Vielzahl von Arten von Ripple-Effekten erfasst. Wir bewerten prominente Bearbeitungsmethoden anhand dieses Benchmarks und zeigen, dass aktuelle Methoden keine konsistenten Änderungen im Wissen des Modells einführen können. Darüber hinaus stellen wir fest, dass eine einfache In-Context-Bearbeitungs-Baseline die besten Ergebnisse in unserem Benchmark erzielt, was eine vielversprechende Forschungsrichtung für die Modellbearbeitung nahelegt.
English
Modern language models capture a large body of factual knowledge. However,
some facts can be incorrectly induced or become obsolete over time, resulting
in factually incorrect generations. This has led to the development of various
editing methods that allow updating facts encoded by the model. Evaluation of
these methods has primarily focused on testing whether an individual fact has
been successfully injected, and if similar predictions for other subjects have
not changed. Here we argue that such evaluation is limited, since injecting one
fact (e.g. ``Jack Depp is the son of Johnny Depp'') introduces a ``ripple
effect'' in the form of additional facts that the model needs to update
(e.g.``Jack Depp is the sibling of Lily-Rose Depp''). To address this issue, we
propose a novel set of evaluation criteria that consider the implications of an
edit on related facts. Using these criteria, we then construct , a
diagnostic benchmark of 5K factual edits, capturing a variety of types of
ripple effects. We evaluate prominent editing methods on , showing
that current methods fail to introduce consistent changes in the model's
knowledge. In addition, we find that a simple in-context editing baseline
obtains the best scores on our benchmark, suggesting a promising research
direction for model editing.