ChatPaper.aiChatPaper

EtCon: 신뢰할 수 있는 지식 편집을 위한 수정 후 통합

EtCon: Edit-then-Consolidate for Reliable Knowledge Editing

December 4, 2025
저자: Ruilin Li, Yibin Wang, Wenhong Zhu, Chenglin Li, Jinghao Zhang, Chenliang Li, Junchi Yan, Jiaqi Wang
cs.AI

초록

지식 편집은 대규모 언어 모델(LLM)의 특정 사실을 전체 재학습 없이 갱신하는 것을 목표로 합니다. 기존 연구들은 LLM의 지식 계층을 조정하는 방식을 탐구하며 선택적 편집의 효과성을 입증해왔습니다. 그러나 통제된 교사 강제 평가에서의 성능과 평생 학습 시나리오에서의 실제 효과성 사이에는 상당한 격차가 존재하며, 이는 실용적 적용 가능성을 크게 제한합니다. 본 연구의 실증적 분석을 통해 이 격차와 관련된 두 가지 반복적인 문제를 확인했습니다: (1) 대부분의 기존 방법은 편집된 모델이 새로운 사실에 과적합되도록 하여 사전 학습된 능력을 저하시킵니다; (2) 지식 통합 단계가 결정적으로 부재하여 새로운 사실이 자동회귀 생성 시 LLM의 추론 단계 행동에 충분히 통합되지 않아, 매개변수화된 지식과 실제 생성 행동 간 불일치가 발생합니다. 이를 위해 우리는 이론적 지식 편집 방법과 실제 적용 가능성 간의 격차를 해소하려는 새로운 지식 편집 패러다임인 Edit-then-Consolidate를 제안합니다. 구체적으로, (1) 우리의 프레임워크는 신뢰 영역 목적 함수를 통해 편집을 지역화하여 정책 이탈을 제한하는 표적 근위 지도 미세 조정(TPSFT)을 통해 과적합을 완화합니다; (2) 이후 그룹 상대 정책 최적화(GRPO)를 사용하는 통합 단계는 포괄적 보상 신호 하에서 궤적 수준 행동을 최적화하여 편집된 지식을 CoT 기반 추론 정책과 정렬시킵니다. 폭넓은 실험을 통해 우리 프레임워크가 실제 평가에서 편집 신뢰성과 일반화를 꾸준히 향상시키면서 지역성과 사전 학습된 능력을 더 잘 보존함을 입증했습니다.
English
Knowledge editing aims to update specific facts in large language models (LLMs) without full retraining. Prior efforts sought to tune the knowledge layers of LLMs, proving effective for making selective edits. However, a significant gap exists between their performance in controlled, teacher-forcing evaluations and their real-world effectiveness in lifelong learning scenarios, which greatly limits their practical applicability. This work's empirical analysis reveals two recurring issues associated with this gap: (1) Most traditional methods lead the edited model to overfit to the new fact, thereby degrading pre-trained capabilities; (2) There is a critical absence of a knowledge consolidation stage, leaving new facts insufficiently integrated into LLMs' inference-time behavior under autoregressive generation, thereby leading to a mismatch between parametric knowledge and actual generation behavior. To this end, we propose Edit-then-Consolidate, a novel knowledge editing paradigm that aims to bridge the gap between theoretical knowledge editing methods and their real-world applicability. Specifically, (1) our framework mitigates overfitting via Targeted Proximal Supervised Fine-Tuning (TPSFT) that localizes the edit via a trust-region objective to limit policy drift; (2) Then, a consolidation stage using Group Relative Policy Optimization (GRPO) aligns the edited knowledge with CoT-based inference policy by optimizing trajectory-level behavior under comprehensive reward signals. Extensive experiments demonstrate our framework consistently improves editing reliability and generalization under real-world evaluations, while better preserving locality and pre-trained capabilities.
PDF72December 13, 2025