Devemos Realmente Editar Modelos de Linguagem? Sobre a Avaliação de Modelos de Linguagem Editados
Should We Really Edit Language Models? On the Evaluation of Edited Language Models
October 24, 2024
Autores: Qi Li, Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Xinglin Pan, Xiaowen Chu
cs.AI
Resumo
A edição de modelos tornou-se uma alternativa cada vez mais popular para atualizar eficientemente o conhecimento dentro dos modelos de linguagem. Os métodos atuais concentram-se principalmente na confiabilidade, generalização e localidade, com muitos métodos se destacando nessas áreas. Alguns trabalhos recentes revelam as armadilhas desses métodos de edição, como distorção ou conflito de conhecimento. No entanto, as habilidades gerais dos modelos de linguagem pós-edição permanecem inexploradas. Neste artigo, realizamos uma avaliação abrangente de vários métodos de edição e diferentes modelos de linguagem, e obtivemos as seguintes descobertas. (1) Os métodos de edição existentes levam a uma inevitável deterioração de desempenho em benchmarks gerais, indicando que os métodos de edição existentes mantêm as habilidades gerais do modelo com apenas algumas dezenas de edições. Quando o número de edições é ligeiramente maior, a estrutura de conhecimento intrínseco do modelo é perturbada ou até mesmo completamente danificada. (2) Modelos ajustados por instrução são mais robustos à edição, mostrando menos queda de desempenho no conhecimento geral após a edição. (3) Modelos de linguagem em grande escala são mais resistentes à edição em comparação com modelos pequenos. (4) A segurança do modelo editado é significativamente enfraquecida, mesmo para aqueles modelos alinhados com a segurança. Nossas descobertas indicam que os métodos de edição atuais são adequados apenas para atualizações de conhecimento em pequena escala dentro dos modelos de linguagem, o que motiva pesquisas adicionais sobre métodos de edição mais práticos e confiáveis. Os detalhes do código e da reprodução podem ser encontrados em https://github.com/lqinfdim/EditingEvaluation.
English
Model editing has become an increasingly popular alternative for efficiently
updating knowledge within language models. Current methods mainly focus on
reliability, generalization, and locality, with many methods excelling across
these criteria. Some recent works disclose the pitfalls of these editing
methods such as knowledge distortion or conflict. However, the general
abilities of post-edited language models remain unexplored. In this paper, we
perform a comprehensive evaluation on various editing methods and different
language models, and have following findings. (1) Existing editing methods lead
to inevitable performance deterioration on general benchmarks, indicating that
existing editing methods maintain the general abilities of the model within
only a few dozen edits. When the number of edits is slightly large, the
intrinsic knowledge structure of the model is disrupted or even completely
damaged. (2) Instruction-tuned models are more robust to editing, showing less
performance drop on general knowledge after editing. (3) Language model with
large scale is more resistant to editing compared to small model. (4) The
safety of the edited model, is significantly weakened, even for those
safety-aligned models. Our findings indicate that current editing methods are
only suitable for small-scale knowledge updates within language models, which
motivates further research on more practical and reliable editing methods. The
details of code and reproduction can be found in
https://github.com/lqinfdim/EditingEvaluation.Summary
AI-Generated Summary