ChatPaper.aiChatPaper

Evaluación de los Efectos Secundarios de la Edición de Conocimiento en Modelos de Lenguaje

Evaluating the Ripple Effects of Knowledge Editing in Language Models

July 24, 2023
Autores: Roi Cohen, Eden Biran, Ori Yoran, Amir Globerson, Mor Geva
cs.AI

Resumen

Los modelos de lenguaje modernos capturan un amplio conjunto de conocimientos factuales. Sin embargo, algunos hechos pueden ser inducidos incorrectamente o volverse obsoletos con el tiempo, lo que resulta en generaciones factualmente incorrectas. Esto ha llevado al desarrollo de diversos métodos de edición que permiten actualizar los hechos codificados por el modelo. La evaluación de estos métodos se ha centrado principalmente en comprobar si un hecho individual se ha inyectado con éxito y si las predicciones similares para otros sujetos no han cambiado. Aquí argumentamos que dicha evaluación es limitada, ya que inyectar un hecho (por ejemplo, "Jack Depp es el hijo de Johnny Depp") introduce un "efecto dominó" en forma de hechos adicionales que el modelo necesita actualizar (por ejemplo, "Jack Depp es el hermano de Lily-Rose Depp"). Para abordar este problema, proponemos un nuevo conjunto de criterios de evaluación que consideran las implicaciones de una edición en hechos relacionados. Utilizando estos criterios, construimos un punto de referencia diagnóstico de 5K ediciones factuales, capturando una variedad de tipos de efectos dominó. Evaluamos métodos de edición destacados en este punto de referencia, mostrando que los métodos actuales no logran introducir cambios consistentes en el conocimiento del modelo. Además, encontramos que una línea base simple de edición en contexto obtiene los mejores puntajes en nuestro punto de referencia, sugiriendo una dirección prometedora de investigación para la edición de modelos.
English
Modern language models capture a large body of factual knowledge. However, some facts can be incorrectly induced or become obsolete over time, resulting in factually incorrect generations. This has led to the development of various editing methods that allow updating facts encoded by the model. Evaluation of these methods has primarily focused on testing whether an individual fact has been successfully injected, and if similar predictions for other subjects have not changed. Here we argue that such evaluation is limited, since injecting one fact (e.g. ``Jack Depp is the son of Johnny Depp'') introduces a ``ripple effect'' in the form of additional facts that the model needs to update (e.g.``Jack Depp is the sibling of Lily-Rose Depp''). To address this issue, we propose a novel set of evaluation criteria that consider the implications of an edit on related facts. Using these criteria, we then construct , a diagnostic benchmark of 5K factual edits, capturing a variety of types of ripple effects. We evaluate prominent editing methods on , showing that current methods fail to introduce consistent changes in the model's knowledge. In addition, we find that a simple in-context editing baseline obtains the best scores on our benchmark, suggesting a promising research direction for model editing.
PDF120December 15, 2024