Следует ли нам действительно редактировать языковые модели? Оценка отредактированных языковых моделей
Should We Really Edit Language Models? On the Evaluation of Edited Language Models
October 24, 2024
Авторы: Qi Li, Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Xinglin Pan, Xiaowen Chu
cs.AI
Аннотация
Редактирование модели стало все более популярной альтернативой для эффективного обновления знаний в моделях языка. Существующие методы в основном сосредотачиваются на надежности, обобщении и локальности, и многие методы превосходят в этих критериях. Некоторые недавние работы раскрывают недостатки этих методов редактирования, такие как искажение или конфликт знаний. Однако общие способности отредактированных моделей языка остаются неизученными. В данной статье мы проводим всестороннюю оценку различных методов редактирования и различных моделей языка, и получаем следующие результаты. (1) Существующие методы редактирования приводят к неизбежному ухудшению производительности на общих бенчмарках, указывая на то, что существующие методы редактирования сохраняют общие способности модели только при нескольких десятках редакций. Когда количество редакций немного увеличивается, внутренняя структура знаний модели нарушается или даже полностью разрушается. (2) Модели, настроенные на инструкции, более устойчивы к редактированию, показывая меньшее падение производительности на общих знаниях после редактирования. (3) Модель языка большого масштаба более устойчива к редактированию по сравнению с небольшой моделью. (4) Безопасность отредактированной модели значительно ослаблена, даже для тех моделей, которые ориентированы на безопасность. Наши результаты указывают на то, что текущие методы редактирования подходят только для обновлений знаний малого масштаба в моделях языка, что мотивирует к дальнейшему исследованию более практичных и надежных методов редактирования. Подробности кода и воспроизведения можно найти по ссылке https://github.com/lqinfdim/EditingEvaluation.
English
Model editing has become an increasingly popular alternative for efficiently
updating knowledge within language models. Current methods mainly focus on
reliability, generalization, and locality, with many methods excelling across
these criteria. Some recent works disclose the pitfalls of these editing
methods such as knowledge distortion or conflict. However, the general
abilities of post-edited language models remain unexplored. In this paper, we
perform a comprehensive evaluation on various editing methods and different
language models, and have following findings. (1) Existing editing methods lead
to inevitable performance deterioration on general benchmarks, indicating that
existing editing methods maintain the general abilities of the model within
only a few dozen edits. When the number of edits is slightly large, the
intrinsic knowledge structure of the model is disrupted or even completely
damaged. (2) Instruction-tuned models are more robust to editing, showing less
performance drop on general knowledge after editing. (3) Language model with
large scale is more resistant to editing compared to small model. (4) The
safety of the edited model, is significantly weakened, even for those
safety-aligned models. Our findings indicate that current editing methods are
only suitable for small-scale knowledge updates within language models, which
motivates further research on more practical and reliable editing methods. The
details of code and reproduction can be found in
https://github.com/lqinfdim/EditingEvaluation.Summary
AI-Generated Summary