L'illusione della modifica del modello: Ripensare la valutazione in contesti reali

Abstract

Nonostante risultati quasi perfetti nelle valutazioni artificiali, l'efficacia della modifica dei modelli nelle applicazioni del mondo reale rimane inesplorata. Per colmare questa lacuna, proponiamo di studiare la modifica dei modelli nel contesto del question answering (QA) stabilendo una pratica di valutazione rigorosa per valutare l'efficacia dei metodi di modifica nel correggere gli errori dei modelli linguistici di grandi dimensioni (LLM). Questo consiste in QAEdit, un nuovo benchmark derivato da popolari dataset di QA, e un framework di valutazione standardizzato. I nostri esperimenti di modifica singola indicano che i metodi di modifica attuali performano sostanzialmente peggio rispetto a quanto riportato in precedenza (38,5% vs. ~96%). Attraverso l'analisi dei moduli e esperimenti controllati, dimostriamo che questo declino delle prestazioni deriva da problemi nelle pratiche di valutazione della ricerca precedente sulla modifica. Un problema chiave è l'uso inappropriato del teacher forcing nei test, che previene la propagazione degli errori fornendo come input token di verità fondamentale (inaccessibili negli scenari del mondo reale). Inoltre, simuliamo il dispiegamento nel mondo reale attraverso la modifica sequenziale, rivelando che gli approcci attuali falliscono drasticamente con soli 1000 interventi di modifica. La nostra analisi fornisce un riesame fondamentale sia dell'applicabilità nel mondo reale dei metodi esistenti di modifica dei modelli che delle loro pratiche di valutazione, e stabilisce un framework di valutazione rigoroso con intuizioni chiave per far progredire la ricerca su una modifica dei modelli affidabile e pratica.

English

Despite near-perfect results in artificial evaluations, the effectiveness of model editing in real-world applications remains unexplored. To bridge this gap, we propose to study model editing in question answering (QA) by establishing a rigorous evaluation practice to assess the effectiveness of editing methods in correcting LLMs' errors. It consists of QAEdit, a new benchmark derived from popular QA datasets, and a standardized evaluation framework. Our single editing experiments indicate that current editing methods perform substantially worse than previously reported (38.5% vs. ~96%). Through module analysis and controlled experiments, we demonstrate that this performance decline stems from issues in evaluation practices of prior editing research. One key issue is the inappropriate use of teacher forcing in testing prevents error propagation by feeding ground truth tokens (inaccessible in real-world scenarios) as input. Furthermore, we simulate real-world deployment by sequential editing, revealing that current approaches fail drastically with only 1000 edits. Our analysis provides a fundamental reexamination of both the real-world applicability of existing model editing methods and their evaluation practices, and establishes a rigorous evaluation framework with key insights to advance reliable and practical model editing research.

L'illusione della modifica del modello: Ripensare la valutazione in contesti reali

The Mirage of Model Editing: Revisiting Evaluation in the Wild

Abstract

Support