モデル編集の幻影:実環境における評価の再考
The Mirage of Model Editing: Revisiting Evaluation in the Wild
February 16, 2025
著者: Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng
cs.AI
要旨
人工的な評価ではほぼ完璧な結果が得られているにもかかわらず、モデル編集の実世界での有効性は未だに検証されていません。このギャップを埋めるため、我々は質問応答(QA)におけるモデル編集を研究することを提案し、大規模言語モデル(LLM)の誤りを修正する編集手法の有効性を評価するための厳密な評価手法を確立します。これには、人気のあるQAデータセットから派生した新しいベンチマークであるQAEditと、標準化された評価フレームワークが含まれます。単一編集実験の結果、現在の編集手法は以前報告されたものよりも大幅に低い性能(38.5% vs. ~96%)を示しました。モジュール分析と制御実験を通じて、この性能低下は従来の編集研究における評価手法の問題に起因していることを明らかにしました。その主な問題の一つは、テストにおける教師強制の不適切な使用であり、実世界のシナリオではアクセス不可能な正解トークンを入力として与えることで誤りの伝播を防いでいることです。さらに、逐次編集を通じて実世界の展開をシミュレートした結果、現在のアプローチはわずか1000回の編集で劇的に失敗することが明らかになりました。我々の分析は、既存のモデル編集手法の実世界での適用可能性とその評価手法の根本的な再検討を提供し、信頼性と実用性のあるモデル編集研究を進めるための重要な洞察を備えた厳密な評価フレームワークを確立します。
English
Despite near-perfect results in artificial evaluations, the effectiveness of
model editing in real-world applications remains unexplored. To bridge this
gap, we propose to study model editing in question answering (QA) by
establishing a rigorous evaluation practice to assess the effectiveness of
editing methods in correcting LLMs' errors. It consists of QAEdit, a new
benchmark derived from popular QA datasets, and a standardized evaluation
framework. Our single editing experiments indicate that current editing methods
perform substantially worse than previously reported (38.5% vs. ~96%). Through
module analysis and controlled experiments, we demonstrate that this
performance decline stems from issues in evaluation practices of prior editing
research. One key issue is the inappropriate use of teacher forcing in testing
prevents error propagation by feeding ground truth tokens (inaccessible in
real-world scenarios) as input. Furthermore, we simulate real-world deployment
by sequential editing, revealing that current approaches fail drastically with
only 1000 edits. Our analysis provides a fundamental reexamination of both the
real-world applicability of existing model editing methods and their evaluation
practices, and establishes a rigorous evaluation framework with key insights to
advance reliable and practical model editing research.Summary
AI-Generated Summary