Оценка волновых эффектов редактирования знаний в языковых моделях
Evaluating the Ripple Effects of Knowledge Editing in Language Models
July 24, 2023
Авторы: Roi Cohen, Eden Biran, Ori Yoran, Amir Globerson, Mor Geva
cs.AI
Аннотация
Современные языковые модели охватывают обширный объем фактических знаний. Однако некоторые факты могут быть некорректно выведены или устареть со временем, что приводит к генерации фактически неверных утверждений. Это стимулировало разработку различных методов редактирования, позволяющих обновлять факты, закодированные в модели. Оценка этих методов в основном сосредоточена на проверке того, был ли успешно внедрен отдельный факт и не изменились ли предсказания для других связанных объектов. Мы утверждаем, что такая оценка ограничена, поскольку внедрение одного факта (например, «Джек Депп — сын Джонни Деппа») вызывает «эффект ряби» в виде дополнительных фактов, которые модель должна обновить (например, «Джек Депп — брат Лили-Роуз Депп»). Чтобы решить эту проблему, мы предлагаем новый набор критериев оценки, учитывающих последствия редактирования для связанных фактов. Используя эти критерии, мы создаем диагностический бенчмарк из 5 тысяч фактологических правок, охватывающий различные типы эффектов ряби. Мы оцениваем ведущие методы редактирования на этом бенчмарке, показывая, что текущие методы не обеспечивают согласованных изменений в знаниях модели. Кроме того, мы обнаруживаем, что простой базовый метод редактирования в контексте демонстрирует наилучшие результаты на нашем бенчмарке, что указывает на перспективное направление исследований в области редактирования моделей.
English
Modern language models capture a large body of factual knowledge. However,
some facts can be incorrectly induced or become obsolete over time, resulting
in factually incorrect generations. This has led to the development of various
editing methods that allow updating facts encoded by the model. Evaluation of
these methods has primarily focused on testing whether an individual fact has
been successfully injected, and if similar predictions for other subjects have
not changed. Here we argue that such evaluation is limited, since injecting one
fact (e.g. ``Jack Depp is the son of Johnny Depp'') introduces a ``ripple
effect'' in the form of additional facts that the model needs to update
(e.g.``Jack Depp is the sibling of Lily-Rose Depp''). To address this issue, we
propose a novel set of evaluation criteria that consider the implications of an
edit on related facts. Using these criteria, we then construct , a
diagnostic benchmark of 5K factual edits, capturing a variety of types of
ripple effects. We evaluate prominent editing methods on , showing
that current methods fail to introduce consistent changes in the model's
knowledge. In addition, we find that a simple in-context editing baseline
obtains the best scores on our benchmark, suggesting a promising research
direction for model editing.