L'illusione della modifica del modello: Ripensare la valutazione in contesti reali
The Mirage of Model Editing: Revisiting Evaluation in the Wild
February 16, 2025
Autori: Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng
cs.AI
Abstract
Nonostante risultati quasi perfetti nelle valutazioni artificiali, l'efficacia della modifica dei modelli nelle applicazioni del mondo reale rimane inesplorata. Per colmare questa lacuna, proponiamo di studiare la modifica dei modelli nel contesto del question answering (QA) stabilendo una pratica di valutazione rigorosa per valutare l'efficacia dei metodi di modifica nel correggere gli errori dei modelli linguistici di grandi dimensioni (LLM). Questo consiste in QAEdit, un nuovo benchmark derivato da popolari dataset di QA, e un framework di valutazione standardizzato. I nostri esperimenti di modifica singola indicano che i metodi di modifica attuali performano sostanzialmente peggio rispetto a quanto riportato in precedenza (38,5% vs. ~96%). Attraverso l'analisi dei moduli e esperimenti controllati, dimostriamo che questo declino delle prestazioni deriva da problemi nelle pratiche di valutazione della ricerca precedente sulla modifica. Un problema chiave è l'uso inappropriato del teacher forcing nei test, che previene la propagazione degli errori fornendo come input token di verità fondamentale (inaccessibili negli scenari del mondo reale). Inoltre, simuliamo il dispiegamento nel mondo reale attraverso la modifica sequenziale, rivelando che gli approcci attuali falliscono drasticamente con soli 1000 interventi di modifica. La nostra analisi fornisce un riesame fondamentale sia dell'applicabilità nel mondo reale dei metodi esistenti di modifica dei modelli che delle loro pratiche di valutazione, e stabilisce un framework di valutazione rigoroso con intuizioni chiave per far progredire la ricerca su una modifica dei modelli affidabile e pratica.
English
Despite near-perfect results in artificial evaluations, the effectiveness of
model editing in real-world applications remains unexplored. To bridge this
gap, we propose to study model editing in question answering (QA) by
establishing a rigorous evaluation practice to assess the effectiveness of
editing methods in correcting LLMs' errors. It consists of QAEdit, a new
benchmark derived from popular QA datasets, and a standardized evaluation
framework. Our single editing experiments indicate that current editing methods
perform substantially worse than previously reported (38.5% vs. ~96%). Through
module analysis and controlled experiments, we demonstrate that this
performance decline stems from issues in evaluation practices of prior editing
research. One key issue is the inappropriate use of teacher forcing in testing
prevents error propagation by feeding ground truth tokens (inaccessible in
real-world scenarios) as input. Furthermore, we simulate real-world deployment
by sequential editing, revealing that current approaches fail drastically with
only 1000 edits. Our analysis provides a fundamental reexamination of both the
real-world applicability of existing model editing methods and their evaluation
practices, and establishes a rigorous evaluation framework with key insights to
advance reliable and practical model editing research.Summary
AI-Generated Summary