Die Illusion der Modellbearbeitung: Eine Neubewertung in der Praxis
The Mirage of Model Editing: Revisiting Evaluation in the Wild
February 16, 2025
Autoren: Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng
cs.AI
Zusammenfassung
Trotz nahezu perfekter Ergebnisse in künstlichen Bewertungen bleibt die Wirksamkeit von Modellbearbeitung in realen Anwendungen unerforscht. Um diese Lücke zu schließen, schlagen wir vor, die Modellbearbeitung im Bereich der Frage-Antwort-Systeme (QA) zu untersuchen, indem wir eine rigorose Bewertungspraxis etablieren, um die Wirksamkeit von Bearbeitungsmethoden bei der Korrektur von Fehlern in großen Sprachmodellen (LLMs) zu bewerten. Dies umfasst QAEdit, einen neuen Benchmark, der aus beliebten QA-Datensätzen abgeleitet ist, sowie ein standardisiertes Bewertungsframework. Unsere Einzelbearbeitungsexperimente zeigen, dass aktuelle Bearbeitungsmethoden deutlich schlechter abschneiden als bisher berichtet (38,5 % vs. ~96 %). Durch Modulanalysen und kontrollierte Experimente demonstrieren wir, dass dieser Leistungsabfall auf Probleme in den Bewertungspraktiken früherer Bearbeitungsforschung zurückzuführen ist. Ein zentrales Problem ist der unangemessene Einsatz von Teacher Forcing beim Testen, wodurch die Fehlerfortpflanzung verhindert wird, indem Ground-Truth-Token (die in realen Szenarien nicht zugänglich sind) als Eingabe verwendet werden. Darüber hinaus simulieren wir den realen Einsatz durch sequenzielle Bearbeitung, was zeigt, dass aktuelle Ansätze bereits nach nur 1000 Bearbeitungen drastisch versagen. Unsere Analyse bietet eine grundlegende Neubewertung sowohl der realen Anwendbarkeit bestehender Modellbearbeitungsmethoden als auch ihrer Bewertungspraktiken und etabliert ein rigoroses Bewertungsframework mit wichtigen Erkenntnissen, um die Forschung zu zuverlässiger und praktischer Modellbearbeitung voranzutreiben.
English
Despite near-perfect results in artificial evaluations, the effectiveness of
model editing in real-world applications remains unexplored. To bridge this
gap, we propose to study model editing in question answering (QA) by
establishing a rigorous evaluation practice to assess the effectiveness of
editing methods in correcting LLMs' errors. It consists of QAEdit, a new
benchmark derived from popular QA datasets, and a standardized evaluation
framework. Our single editing experiments indicate that current editing methods
perform substantially worse than previously reported (38.5% vs. ~96%). Through
module analysis and controlled experiments, we demonstrate that this
performance decline stems from issues in evaluation practices of prior editing
research. One key issue is the inappropriate use of teacher forcing in testing
prevents error propagation by feeding ground truth tokens (inaccessible in
real-world scenarios) as input. Furthermore, we simulate real-world deployment
by sequential editing, revealing that current approaches fail drastically with
only 1000 edits. Our analysis provides a fundamental reexamination of both the
real-world applicability of existing model editing methods and their evaluation
practices, and establishes a rigorous evaluation framework with key insights to
advance reliable and practical model editing research.Summary
AI-Generated Summary