모델 편집의 신화: 야외 평가 재방문
The Mirage of Model Editing: Revisiting Evaluation in the Wild
February 16, 2025
저자: Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng
cs.AI
초록
인공 평가에서 거의 완벽한 결과를 얻었음에도, 모델 편집의 효과는 실제 응용 프로그램에서 미개척된 채로 남아 있습니다. 이 간극을 메우기 위해, 우리는 LLMs의 오류를 수정하는 효과를 평가하기 위한 엄격한 평가 방법을 수립하여 질문 응답(QA)에서 모델 편집을 연구하기를 제안합니다. 이는 인기 있는 QA 데이터셋에서 유래된 새로운 벤치마크인 QAEdit과 표준화된 평가 프레임워크로 구성됩니다. 우리의 단일 편집 실험은 현재의 편집 방법이 이전에 보고된 것보다 상당히 성능이 떨어진다는 것을 나타냅니다 (38.5% 대 ~96%). 모듈 분석과 통제된 실험을 통해, 이 성능 하락이 이전 편집 연구의 평가 방법의 문제에서 비롯된다는 것을 입증합니다. 한 가지 주요 문제는 테스트에서의 교사 강제 사용이 오류 전파를 방지하는데, 이는 실제 시나리오에서 접근할 수 없는 ground truth 토큰을 입력으로 제공합니다. 게다가, 우리는 순차적 편집을 통해 실제 배포를 시뮬레이션하여, 현재 방법이 1000회 편집만으로도 심각하게 실패한다는 것을 밝혀 냅니다. 우리의 분석은 기존 모델 편집 방법의 실제 응용 가능성과 그들의 평가 방법을 근본적으로 재검토하며, 신뢰할 수 있고 실용적인 모델 편집 연구를 진전시키기 위한 핵심 통찰력을 갖춘 엄격한 평가 프레임워크를 수립합니다.
English
Despite near-perfect results in artificial evaluations, the effectiveness of
model editing in real-world applications remains unexplored. To bridge this
gap, we propose to study model editing in question answering (QA) by
establishing a rigorous evaluation practice to assess the effectiveness of
editing methods in correcting LLMs' errors. It consists of QAEdit, a new
benchmark derived from popular QA datasets, and a standardized evaluation
framework. Our single editing experiments indicate that current editing methods
perform substantially worse than previously reported (38.5% vs. ~96%). Through
module analysis and controlled experiments, we demonstrate that this
performance decline stems from issues in evaluation practices of prior editing
research. One key issue is the inappropriate use of teacher forcing in testing
prevents error propagation by feeding ground truth tokens (inaccessible in
real-world scenarios) as input. Furthermore, we simulate real-world deployment
by sequential editing, revealing that current approaches fail drastically with
only 1000 edits. Our analysis provides a fundamental reexamination of both the
real-world applicability of existing model editing methods and their evaluation
practices, and establishes a rigorous evaluation framework with key insights to
advance reliable and practical model editing research.Summary
AI-Generated Summary