O Miragem da Edição de Modelos: Reavaliando a Avaliação no Mundo Real
The Mirage of Model Editing: Revisiting Evaluation in the Wild
February 16, 2025
Autores: Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng
cs.AI
Resumo
Apesar dos resultados quase perfeitos em avaliações artificiais, a eficácia da edição de modelos em aplicações do mundo real permanece inexplorada. Para preencher essa lacuna, propomos estudar a edição de modelos em tarefas de question answering (QA) estabelecendo uma prática de avaliação rigorosa para medir a eficácia dos métodos de edição na correção de erros de LLMs. Isso inclui o QAEdit, um novo benchmark derivado de conjuntos de dados populares de QA, e um framework de avaliação padronizado. Nossos experimentos de edição única indicam que os métodos atuais de edição têm um desempenho substancialmente pior do que o relatado anteriormente (38,5% vs. ~96%). Por meio de análise de módulos e experimentos controlados, demonstramos que essa queda de desempenho decorre de problemas nas práticas de avaliação de pesquisas anteriores sobre edição. Um problema-chave é o uso inadequado de teacher forcing nos testes, que impede a propagação de erros ao fornecer tokens de verdade absoluta (inacessíveis em cenários do mundo real) como entrada. Além disso, simulamos a implantação no mundo real por meio de edições sequenciais, revelando que as abordagens atuais falham drasticamente com apenas 1000 edições. Nossa análise fornece uma reavaliação fundamental tanto da aplicabilidade no mundo real dos métodos existentes de edição de modelos quanto de suas práticas de avaliação, e estabelece um framework de avaliação rigoroso com insights essenciais para avançar a pesquisa em edição de modelos de forma confiável e prática.
English
Despite near-perfect results in artificial evaluations, the effectiveness of
model editing in real-world applications remains unexplored. To bridge this
gap, we propose to study model editing in question answering (QA) by
establishing a rigorous evaluation practice to assess the effectiveness of
editing methods in correcting LLMs' errors. It consists of QAEdit, a new
benchmark derived from popular QA datasets, and a standardized evaluation
framework. Our single editing experiments indicate that current editing methods
perform substantially worse than previously reported (38.5% vs. ~96%). Through
module analysis and controlled experiments, we demonstrate that this
performance decline stems from issues in evaluation practices of prior editing
research. One key issue is the inappropriate use of teacher forcing in testing
prevents error propagation by feeding ground truth tokens (inaccessible in
real-world scenarios) as input. Furthermore, we simulate real-world deployment
by sequential editing, revealing that current approaches fail drastically with
only 1000 edits. Our analysis provides a fundamental reexamination of both the
real-world applicability of existing model editing methods and their evaluation
practices, and establishes a rigorous evaluation framework with key insights to
advance reliable and practical model editing research.Summary
AI-Generated Summary