Avaliando os Efeitos em Cascata da Edição de Conhecimento em Modelos de Linguagem

Resumo

Os modelos de linguagem modernos capturam um amplo conjunto de conhecimentos factuais. No entanto, alguns fatos podem ser incorretamente induzidos ou se tornar obsoletos ao longo do tempo, resultando em gerações factualmente incorretas. Isso levou ao desenvolvimento de diversos métodos de edição que permitem atualizar os fatos codificados pelo modelo. A avaliação desses métodos tem se concentrado principalmente em testar se um fato individual foi injetado com sucesso e se as previsões semelhantes para outros sujeitos não foram alteradas. Aqui, argumentamos que essa avaliação é limitada, pois a injeção de um fato (por exemplo, "Jack Depp é filho de Johnny Depp") introduz um "efeito cascata" na forma de fatos adicionais que o modelo precisa atualizar (por exemplo, "Jack Depp é irmão de Lily-Rose Depp"). Para abordar essa questão, propomos um novo conjunto de critérios de avaliação que consideram as implicações de uma edição em fatos relacionados. Usando esses critérios, construímos um benchmark diagnóstico de 5 mil edições factuais, capturando uma variedade de tipos de efeitos cascata. Avaliamos métodos de edição proeminentes nesse benchmark, mostrando que os métodos atuais falham em introduzir mudanças consistentes no conhecimento do modelo. Além disso, descobrimos que uma linha de base simples de edição em contexto obtém as melhores pontuações em nosso benchmark, sugerindo uma direção promissora de pesquisa para a edição de modelos.

English

Modern language models capture a large body of factual knowledge. However, some facts can be incorrectly induced or become obsolete over time, resulting in factually incorrect generations. This has led to the development of various editing methods that allow updating facts encoded by the model. Evaluation of these methods has primarily focused on testing whether an individual fact has been successfully injected, and if similar predictions for other subjects have not changed. Here we argue that such evaluation is limited, since injecting one fact (e.g. ``Jack Depp is the son of Johnny Depp'') introduces a ``ripple effect'' in the form of additional facts that the model needs to update (e.g.``Jack Depp is the sibling of Lily-Rose Depp''). To address this issue, we propose a novel set of evaluation criteria that consider the implications of an edit on related facts. Using these criteria, we then construct , a diagnostic benchmark of 5K factual edits, capturing a variety of types of ripple effects. We evaluate prominent editing methods on , showing that current methods fail to introduce consistent changes in the model's knowledge. In addition, we find that a simple in-context editing baseline obtains the best scores on our benchmark, suggesting a promising research direction for model editing.

Avaliando os Efeitos em Cascata da Edição de Conhecimento em Modelos de Linguagem

Evaluating the Ripple Effects of Knowledge Editing in Language Models

Resumo

Support