ChatPaper.aiChatPaper

EtCon:信頼性のある知識編集のための編集後統合

EtCon: Edit-then-Consolidate for Reliable Knowledge Editing

December 4, 2025
著者: Ruilin Li, Yibin Wang, Wenhong Zhu, Chenglin Li, Jinghao Zhang, Chenliang Li, Junchi Yan, Jiaqi Wang
cs.AI

要旨

知識編集は、大規模言語モデル(LLM)における特定の事実を完全な再学習なしに更新することを目的としています。従来の研究はLLMの知識層を調整する手法を追求し、選択的な編集において有効性を証明してきました。しかし、制御された教師強制評価での性能と、生涯学習シナリオにおける実世界での有効性の間には大きな隔たりが存在し、これが実用性を大きく制限しています。本研究の実証分析により、この隔たりに関連する二つの反復的な問題が明らかになりました:(1)従来手法の多くは編集されたモデルを新事実に過剰適合させ、事前学習された能力を劣化させる、(2)知識統合段階が決定的に欠如しており、自己回帰的生成下での推論時行動において新事実が不十分に統合されるため、パラメトリック知識と実際の生成行動の間に不一致が生じる。そこで本研究では、理論的な知識編集手法と実世界での適用性の隔たりを埋めることを目的とした新しい知識編集パラダイム「Edit-then-Consolidate」を提案します。具体的には、(1)信頼領域目的関数による編集の局所化でポリシー逸脱を抑制するターゲット近接教師付きファインチューニング(TPSFT)により過剰適合を緩和、(2)グループ相対ポリシー最適化(GRPO)を用いた統合段階により、包括的な報酬信号下での軌跡レベル行動最適化を通じて、編集された知識とCoTベース推論ポリシーを整合させます。大規模な実験により、本フレームワークが実世界評価下での編集信頼性と一般化性を一貫して向上させつつ、局所性と事前学習能力の保持にも優れることが実証されました。
English
Knowledge editing aims to update specific facts in large language models (LLMs) without full retraining. Prior efforts sought to tune the knowledge layers of LLMs, proving effective for making selective edits. However, a significant gap exists between their performance in controlled, teacher-forcing evaluations and their real-world effectiveness in lifelong learning scenarios, which greatly limits their practical applicability. This work's empirical analysis reveals two recurring issues associated with this gap: (1) Most traditional methods lead the edited model to overfit to the new fact, thereby degrading pre-trained capabilities; (2) There is a critical absence of a knowledge consolidation stage, leaving new facts insufficiently integrated into LLMs' inference-time behavior under autoregressive generation, thereby leading to a mismatch between parametric knowledge and actual generation behavior. To this end, we propose Edit-then-Consolidate, a novel knowledge editing paradigm that aims to bridge the gap between theoretical knowledge editing methods and their real-world applicability. Specifically, (1) our framework mitigates overfitting via Targeted Proximal Supervised Fine-Tuning (TPSFT) that localizes the edit via a trust-region objective to limit policy drift; (2) Then, a consolidation stage using Group Relative Policy Optimization (GRPO) aligns the edited knowledge with CoT-based inference policy by optimizing trajectory-level behavior under comprehensive reward signals. Extensive experiments demonstrate our framework consistently improves editing reliability and generalization under real-world evaluations, while better preserving locality and pre-trained capabilities.
PDF72December 13, 2025