¿Deberíamos Realmente Editar Modelos de Lenguaje? Sobre la Evaluación de Modelos de Lenguaje Editados
Should We Really Edit Language Models? On the Evaluation of Edited Language Models
October 24, 2024
Autores: Qi Li, Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Xinglin Pan, Xiaowen Chu
cs.AI
Resumen
La edición de modelos se ha convertido en una alternativa cada vez más popular para actualizar eficientemente el conocimiento dentro de los modelos de lenguaje. Los métodos actuales se centran principalmente en la fiabilidad, generalización y localidad, con muchos métodos destacando en estos criterios. Algunos trabajos recientes revelan las desventajas de estos métodos de edición, como la distorsión o conflicto del conocimiento. Sin embargo, las capacidades generales de los modelos de lenguaje post-editados permanecen inexploradas. En este documento, realizamos una evaluación exhaustiva de varios métodos de edición y diferentes modelos de lenguaje, y hemos obtenido los siguientes hallazgos. (1) Los métodos de edición existentes conducen a un inevitable deterioro del rendimiento en pruebas generales, lo que indica que los métodos de edición actuales mantienen las capacidades generales del modelo con solo unas pocas docenas de ediciones. Cuando el número de ediciones es ligeramente grande, la estructura de conocimiento intrínseco del modelo se ve perturbada o incluso completamente dañada. (2) Los modelos ajustados a instrucciones son más robustos a la edición, mostrando una menor disminución del rendimiento en conocimiento general después de la edición. (3) Un modelo de lenguaje a gran escala es más resistente a la edición en comparación con un modelo pequeño. (4) La seguridad del modelo editado se debilita significativamente, incluso para aquellos modelos alineados con la seguridad. Nuestros hallazgos indican que los métodos de edición actuales solo son adecuados para actualizaciones de conocimiento a pequeña escala dentro de los modelos de lenguaje, lo que motiva una investigación adicional sobre métodos de edición más prácticos y confiables. Los detalles del código y la reproducción se pueden encontrar en https://github.com/lqinfdim/EditingEvaluation.
English
Model editing has become an increasingly popular alternative for efficiently
updating knowledge within language models. Current methods mainly focus on
reliability, generalization, and locality, with many methods excelling across
these criteria. Some recent works disclose the pitfalls of these editing
methods such as knowledge distortion or conflict. However, the general
abilities of post-edited language models remain unexplored. In this paper, we
perform a comprehensive evaluation on various editing methods and different
language models, and have following findings. (1) Existing editing methods lead
to inevitable performance deterioration on general benchmarks, indicating that
existing editing methods maintain the general abilities of the model within
only a few dozen edits. When the number of edits is slightly large, the
intrinsic knowledge structure of the model is disrupted or even completely
damaged. (2) Instruction-tuned models are more robust to editing, showing less
performance drop on general knowledge after editing. (3) Language model with
large scale is more resistant to editing compared to small model. (4) The
safety of the edited model, is significantly weakened, even for those
safety-aligned models. Our findings indicate that current editing methods are
only suitable for small-scale knowledge updates within language models, which
motivates further research on more practical and reliable editing methods. The
details of code and reproduction can be found in
https://github.com/lqinfdim/EditingEvaluation.Summary
AI-Generated Summary