Мираж редактирования моделей: переосмысление оценки в реальных условиях
The Mirage of Model Editing: Revisiting Evaluation in the Wild
February 16, 2025
Авторы: Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng
cs.AI
Аннотация
Несмотря на почти идеальные результаты в искусственных оценках, эффективность редактирования моделей в реальных приложениях остается неисследованной. Чтобы устранить этот пробел, мы предлагаем изучить редактирование моделей в задачах ответов на вопросы (QA), установив строгую практику оценки для определения эффективности методов редактирования в исправлении ошибок больших языковых моделей (LLM). Наш подход включает QAEdit — новый бенчмарк, созданный на основе популярных наборов данных QA, и стандартизированную структуру оценки. Наши эксперименты с единичным редактированием показывают, что текущие методы редактирования работают значительно хуже, чем сообщалось ранее (38,5% против ~96%). С помощью анализа модулей и контролируемых экспериментов мы демонстрируем, что это снижение производительности связано с проблемами в практике оценки в предыдущих исследованиях редактирования. Одной из ключевых проблем является неподходящее использование teacher forcing при тестировании, которое предотвращает распространение ошибок путем подачи эталонных токенов (недоступных в реальных сценариях) на вход. Кроме того, мы моделируем реальное развертывание с помощью последовательного редактирования, показывая, что текущие подходы терпят крах уже после 1000 правок. Наш анализ представляет собой фундаментальный пересмотр как применимости существующих методов редактирования моделей в реальных условиях, так и практик их оценки, а также устанавливает строгую структуру оценки с ключевыми инсайтами для продвижения надежных и практических исследований в области редактирования моделей.
English
Despite near-perfect results in artificial evaluations, the effectiveness of
model editing in real-world applications remains unexplored. To bridge this
gap, we propose to study model editing in question answering (QA) by
establishing a rigorous evaluation practice to assess the effectiveness of
editing methods in correcting LLMs' errors. It consists of QAEdit, a new
benchmark derived from popular QA datasets, and a standardized evaluation
framework. Our single editing experiments indicate that current editing methods
perform substantially worse than previously reported (38.5% vs. ~96%). Through
module analysis and controlled experiments, we demonstrate that this
performance decline stems from issues in evaluation practices of prior editing
research. One key issue is the inappropriate use of teacher forcing in testing
prevents error propagation by feeding ground truth tokens (inaccessible in
real-world scenarios) as input. Furthermore, we simulate real-world deployment
by sequential editing, revealing that current approaches fail drastically with
only 1000 edits. Our analysis provides a fundamental reexamination of both the
real-world applicability of existing model editing methods and their evaluation
practices, and establishes a rigorous evaluation framework with key insights to
advance reliable and practical model editing research.Summary
AI-Generated Summary