O Miragem da Edição de Modelos: Reavaliando a Avaliação no Mundo Real

Resumo

Apesar dos resultados quase perfeitos em avaliações artificiais, a eficácia da edição de modelos em aplicações do mundo real permanece inexplorada. Para preencher essa lacuna, propomos estudar a edição de modelos em tarefas de question answering (QA) estabelecendo uma prática de avaliação rigorosa para medir a eficácia dos métodos de edição na correção de erros de LLMs. Isso inclui o QAEdit, um novo benchmark derivado de conjuntos de dados populares de QA, e um framework de avaliação padronizado. Nossos experimentos de edição única indicam que os métodos atuais de edição têm um desempenho substancialmente pior do que o relatado anteriormente (38,5% vs. ~96%). Por meio de análise de módulos e experimentos controlados, demonstramos que essa queda de desempenho decorre de problemas nas práticas de avaliação de pesquisas anteriores sobre edição. Um problema-chave é o uso inadequado de teacher forcing nos testes, que impede a propagação de erros ao fornecer tokens de verdade absoluta (inacessíveis em cenários do mundo real) como entrada. Além disso, simulamos a implantação no mundo real por meio de edições sequenciais, revelando que as abordagens atuais falham drasticamente com apenas 1000 edições. Nossa análise fornece uma reavaliação fundamental tanto da aplicabilidade no mundo real dos métodos existentes de edição de modelos quanto de suas práticas de avaliação, e estabelece um framework de avaliação rigoroso com insights essenciais para avançar a pesquisa em edição de modelos de forma confiável e prática.

English

Despite near-perfect results in artificial evaluations, the effectiveness of model editing in real-world applications remains unexplored. To bridge this gap, we propose to study model editing in question answering (QA) by establishing a rigorous evaluation practice to assess the effectiveness of editing methods in correcting LLMs' errors. It consists of QAEdit, a new benchmark derived from popular QA datasets, and a standardized evaluation framework. Our single editing experiments indicate that current editing methods perform substantially worse than previously reported (38.5% vs. ~96%). Through module analysis and controlled experiments, we demonstrate that this performance decline stems from issues in evaluation practices of prior editing research. One key issue is the inappropriate use of teacher forcing in testing prevents error propagation by feeding ground truth tokens (inaccessible in real-world scenarios) as input. Furthermore, we simulate real-world deployment by sequential editing, revealing that current approaches fail drastically with only 1000 edits. Our analysis provides a fundamental reexamination of both the real-world applicability of existing model editing methods and their evaluation practices, and establishes a rigorous evaluation framework with key insights to advance reliable and practical model editing research.

O Miragem da Edição de Modelos: Reavaliando a Avaliação no Mundo Real

The Mirage of Model Editing: Revisiting Evaluation in the Wild

Resumo

Support