El espejismo de la edición de modelos: Revisando la evaluación en entornos reales
The Mirage of Model Editing: Revisiting Evaluation in the Wild
February 16, 2025
Autores: Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng
cs.AI
Resumen
A pesar de los resultados casi perfectos en evaluaciones artificiales, la efectividad de la edición de modelos en aplicaciones del mundo real sigue sin explorarse. Para cerrar esta brecha, proponemos estudiar la edición de modelos en tareas de respuesta a preguntas (QA) mediante el establecimiento de una práctica de evaluación rigurosa para medir la efectividad de los métodos de edición en la corrección de errores de los LLMs. Esto incluye QAEdit, un nuevo punto de referencia derivado de conjuntos de datos populares de QA, y un marco de evaluación estandarizado. Nuestros experimentos de edición única indican que los métodos de edición actuales tienen un rendimiento sustancialmente peor que lo reportado anteriormente (38.5% vs. ~96%). A través del análisis de módulos y experimentos controlados, demostramos que esta disminución en el rendimiento se debe a problemas en las prácticas de evaluación de investigaciones previas sobre edición. Un problema clave es el uso inapropiado de "teacher forcing" en las pruebas, que evita la propagación de errores al alimentar tokens de verdad fundamental (inaccesibles en escenarios del mundo real) como entrada. Además, simulamos la implementación en el mundo real mediante la edición secuencial, revelando que los enfoques actuales fallan drásticamente con solo 1000 ediciones. Nuestro análisis proporciona una reevaluación fundamental tanto de la aplicabilidad en el mundo real de los métodos de edición de modelos existentes como de sus prácticas de evaluación, y establece un marco de evaluación riguroso con ideas clave para avanzar en la investigación de edición de modelos confiable y práctica.
English
Despite near-perfect results in artificial evaluations, the effectiveness of
model editing in real-world applications remains unexplored. To bridge this
gap, we propose to study model editing in question answering (QA) by
establishing a rigorous evaluation practice to assess the effectiveness of
editing methods in correcting LLMs' errors. It consists of QAEdit, a new
benchmark derived from popular QA datasets, and a standardized evaluation
framework. Our single editing experiments indicate that current editing methods
perform substantially worse than previously reported (38.5% vs. ~96%). Through
module analysis and controlled experiments, we demonstrate that this
performance decline stems from issues in evaluation practices of prior editing
research. One key issue is the inappropriate use of teacher forcing in testing
prevents error propagation by feeding ground truth tokens (inaccessible in
real-world scenarios) as input. Furthermore, we simulate real-world deployment
by sequential editing, revealing that current approaches fail drastically with
only 1000 edits. Our analysis provides a fundamental reexamination of both the
real-world applicability of existing model editing methods and their evaluation
practices, and establishes a rigorous evaluation framework with key insights to
advance reliable and practical model editing research.Summary
AI-Generated Summary