ChatPaper.aiChatPaper

Die Illusion der Modellbearbeitung: Eine Neubewertung in der Praxis

The Mirage of Model Editing: Revisiting Evaluation in the Wild

February 16, 2025
Autoren: Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng
cs.AI

Zusammenfassung

Trotz nahezu perfekter Ergebnisse in künstlichen Bewertungen bleibt die Wirksamkeit von Modellbearbeitung in realen Anwendungen unerforscht. Um diese Lücke zu schließen, schlagen wir vor, die Modellbearbeitung im Bereich der Frage-Antwort-Systeme (QA) zu untersuchen, indem wir eine rigorose Bewertungspraxis etablieren, um die Wirksamkeit von Bearbeitungsmethoden bei der Korrektur von Fehlern in großen Sprachmodellen (LLMs) zu bewerten. Dies umfasst QAEdit, einen neuen Benchmark, der aus beliebten QA-Datensätzen abgeleitet ist, sowie ein standardisiertes Bewertungsframework. Unsere Einzelbearbeitungsexperimente zeigen, dass aktuelle Bearbeitungsmethoden deutlich schlechter abschneiden als bisher berichtet (38,5 % vs. ~96 %). Durch Modulanalysen und kontrollierte Experimente demonstrieren wir, dass dieser Leistungsabfall auf Probleme in den Bewertungspraktiken früherer Bearbeitungsforschung zurückzuführen ist. Ein zentrales Problem ist der unangemessene Einsatz von Teacher Forcing beim Testen, wodurch die Fehlerfortpflanzung verhindert wird, indem Ground-Truth-Token (die in realen Szenarien nicht zugänglich sind) als Eingabe verwendet werden. Darüber hinaus simulieren wir den realen Einsatz durch sequenzielle Bearbeitung, was zeigt, dass aktuelle Ansätze bereits nach nur 1000 Bearbeitungen drastisch versagen. Unsere Analyse bietet eine grundlegende Neubewertung sowohl der realen Anwendbarkeit bestehender Modellbearbeitungsmethoden als auch ihrer Bewertungspraktiken und etabliert ein rigoroses Bewertungsframework mit wichtigen Erkenntnissen, um die Forschung zu zuverlässiger und praktischer Modellbearbeitung voranzutreiben.
English
Despite near-perfect results in artificial evaluations, the effectiveness of model editing in real-world applications remains unexplored. To bridge this gap, we propose to study model editing in question answering (QA) by establishing a rigorous evaluation practice to assess the effectiveness of editing methods in correcting LLMs' errors. It consists of QAEdit, a new benchmark derived from popular QA datasets, and a standardized evaluation framework. Our single editing experiments indicate that current editing methods perform substantially worse than previously reported (38.5% vs. ~96%). Through module analysis and controlled experiments, we demonstrate that this performance decline stems from issues in evaluation practices of prior editing research. One key issue is the inappropriate use of teacher forcing in testing prevents error propagation by feeding ground truth tokens (inaccessible in real-world scenarios) as input. Furthermore, we simulate real-world deployment by sequential editing, revealing that current approaches fail drastically with only 1000 edits. Our analysis provides a fundamental reexamination of both the real-world applicability of existing model editing methods and their evaluation practices, and establishes a rigorous evaluation framework with key insights to advance reliable and practical model editing research.

Summary

AI-Generated Summary

PDF102February 18, 2025