Avaliando os Efeitos em Cascata da Edição de Conhecimento em Modelos de Linguagem
Evaluating the Ripple Effects of Knowledge Editing in Language Models
July 24, 2023
Autores: Roi Cohen, Eden Biran, Ori Yoran, Amir Globerson, Mor Geva
cs.AI
Resumo
Os modelos de linguagem modernos capturam um amplo conjunto de conhecimentos factuais. No entanto, alguns fatos podem ser incorretamente induzidos ou se tornar obsoletos ao longo do tempo, resultando em gerações factualmente incorretas. Isso levou ao desenvolvimento de diversos métodos de edição que permitem atualizar os fatos codificados pelo modelo. A avaliação desses métodos tem se concentrado principalmente em testar se um fato individual foi injetado com sucesso e se as previsões semelhantes para outros sujeitos não foram alteradas. Aqui, argumentamos que essa avaliação é limitada, pois a injeção de um fato (por exemplo, "Jack Depp é filho de Johnny Depp") introduz um "efeito cascata" na forma de fatos adicionais que o modelo precisa atualizar (por exemplo, "Jack Depp é irmão de Lily-Rose Depp"). Para abordar essa questão, propomos um novo conjunto de critérios de avaliação que consideram as implicações de uma edição em fatos relacionados. Usando esses critérios, construímos um benchmark diagnóstico de 5 mil edições factuais, capturando uma variedade de tipos de efeitos cascata. Avaliamos métodos de edição proeminentes nesse benchmark, mostrando que os métodos atuais falham em introduzir mudanças consistentes no conhecimento do modelo. Além disso, descobrimos que uma linha de base simples de edição em contexto obtém as melhores pontuações em nosso benchmark, sugerindo uma direção promissora de pesquisa para a edição de modelos.
English
Modern language models capture a large body of factual knowledge. However,
some facts can be incorrectly induced or become obsolete over time, resulting
in factually incorrect generations. This has led to the development of various
editing methods that allow updating facts encoded by the model. Evaluation of
these methods has primarily focused on testing whether an individual fact has
been successfully injected, and if similar predictions for other subjects have
not changed. Here we argue that such evaluation is limited, since injecting one
fact (e.g. ``Jack Depp is the son of Johnny Depp'') introduces a ``ripple
effect'' in the form of additional facts that the model needs to update
(e.g.``Jack Depp is the sibling of Lily-Rose Depp''). To address this issue, we
propose a novel set of evaluation criteria that consider the implications of an
edit on related facts. Using these criteria, we then construct , a
diagnostic benchmark of 5K factual edits, capturing a variety of types of
ripple effects. We evaluate prominent editing methods on , showing
that current methods fail to introduce consistent changes in the model's
knowledge. In addition, we find that a simple in-context editing baseline
obtains the best scores on our benchmark, suggesting a promising research
direction for model editing.