ChatPaper.aiChatPaper

De Illusie van Modelbewerking: Herbeoordeling van Evaluatie in de Praktijk

The Mirage of Model Editing: Revisiting Evaluation in the Wild

February 16, 2025
Auteurs: Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng
cs.AI

Samenvatting

Ondanks bijna perfecte resultaten in kunstmatige evaluaties, blijft de effectiviteit van modelbewerking in real-world toepassingen onontgonnen. Om deze kloof te overbruggen, stellen we voor om modelbewerking in vraag-antwoord (QA) te bestuderen door een rigoureuze evaluatiepraktijk op te zetten om de effectiviteit van bewerkingsmethoden te beoordelen bij het corrigeren van fouten in grote taalmodellen (LLMs). Dit bestaat uit QAEdit, een nieuwe benchmark afgeleid van populaire QA-datasets, en een gestandaardiseerd evaluatiekader. Onze experimenten met enkele bewerkingen tonen aan dat huidige bewerkingsmethoden aanzienlijk slechter presteren dan eerder gerapporteerd (38,5% vs. ~96%). Door module-analyse en gecontroleerde experimenten laten we zien dat deze prestatieafname voortkomt uit problemen in de evaluatiepraktijken van eerder bewerkingsonderzoek. Een belangrijk probleem is het onjuiste gebruik van teacher forcing tijdens het testen, wat foutpropagatie voorkomt door grondwaarheidstokens (ontoegankelijk in real-world scenario's) als invoer te gebruiken. Bovendien simuleren we real-world implementatie door sequentiële bewerkingen, wat aantoont dat huidige benaderingen drastisch falen na slechts 1000 bewerkingen. Onze analyse biedt een fundamentele herziening van zowel de real-world toepasbaarheid van bestaande modelbewerkingsmethoden als hun evaluatiepraktijken, en stelt een rigoureus evaluatiekader op met belangrijke inzichten om betrouwbaar en praktisch modelbewerkingsonderzoek te bevorderen.
English
Despite near-perfect results in artificial evaluations, the effectiveness of model editing in real-world applications remains unexplored. To bridge this gap, we propose to study model editing in question answering (QA) by establishing a rigorous evaluation practice to assess the effectiveness of editing methods in correcting LLMs' errors. It consists of QAEdit, a new benchmark derived from popular QA datasets, and a standardized evaluation framework. Our single editing experiments indicate that current editing methods perform substantially worse than previously reported (38.5% vs. ~96%). Through module analysis and controlled experiments, we demonstrate that this performance decline stems from issues in evaluation practices of prior editing research. One key issue is the inappropriate use of teacher forcing in testing prevents error propagation by feeding ground truth tokens (inaccessible in real-world scenarios) as input. Furthermore, we simulate real-world deployment by sequential editing, revealing that current approaches fail drastically with only 1000 edits. Our analysis provides a fundamental reexamination of both the real-world applicability of existing model editing methods and their evaluation practices, and establishes a rigorous evaluation framework with key insights to advance reliable and practical model editing research.

Summary

AI-Generated Summary

PDF102February 18, 2025