ChatPaper.aiChatPaper

EtCon: Редактирование с последующей консолидацией для надежного изменения знаний

EtCon: Edit-then-Consolidate for Reliable Knowledge Editing

December 4, 2025
Авторы: Ruilin Li, Yibin Wang, Wenhong Zhu, Chenglin Li, Jinghao Zhang, Chenliang Li, Junchi Yan, Jiaqi Wang
cs.AI

Аннотация

Редактирование знаний направлено на обновление конкретных фактов в больших языковых моделях (LLM) без полного переобучения. Предыдущие исследования были сосредоточены на настройке слоев знаний LLM, доказав свою эффективность для выборочных изменений. Однако существует значительный разрыв между их производительностью в контролируемых оценках с учителем и их реальной эффективностью в сценариях непрерывного обучения, что серьезно ограничивает их практическую применимость. Эмпирический анализ данной работы выявляет две повторяющиеся проблемы, связанные с этим разрывом: (1) Большинство традиционных методов приводят отредактированную модель к переобучению на новый факт, ухудшая предварительно обученные способности; (2) Отсутствует критически важный этап консолидации знаний, в результате чего новые факты недостаточно интегрируются в поведение LLM во время логического вывода при авторегрессионной генерации, что приводит к рассогласованию между параметрическими знаниями и фактическим поведением генерации. Для решения этих проблем мы предлагаем Edit-then-Consolidate — новую парадигму редактирования знаний, призванную устранить разрыв между теоретическими методами и их практической применимостью. В частности, (1) наша framework-система смягчает переобучение с помощью целевой проксимальной supervised fine-tuning (TPSFT), которая локализует правку с помощью trust-region целевой функции для ограничения дрейфа политики; (2) Затем этап консолидации с использованием Group Relative Policy Optimization (GRPO) согласует отредактированные знания с политикой вывода на основе Chain-of-Thought (CoT), оптимизируя поведение на уровне траекторий с помощью комплексных reward-сигналов. Многочисленные эксперименты демонстрируют, что наша framework-система последовательно повышает надежность и обобщающую способность редактирования в условиях реалистичных оценок, одновременно лучше сохраняя локальность и предварительно обученные capabilities.
English
Knowledge editing aims to update specific facts in large language models (LLMs) without full retraining. Prior efforts sought to tune the knowledge layers of LLMs, proving effective for making selective edits. However, a significant gap exists between their performance in controlled, teacher-forcing evaluations and their real-world effectiveness in lifelong learning scenarios, which greatly limits their practical applicability. This work's empirical analysis reveals two recurring issues associated with this gap: (1) Most traditional methods lead the edited model to overfit to the new fact, thereby degrading pre-trained capabilities; (2) There is a critical absence of a knowledge consolidation stage, leaving new facts insufficiently integrated into LLMs' inference-time behavior under autoregressive generation, thereby leading to a mismatch between parametric knowledge and actual generation behavior. To this end, we propose Edit-then-Consolidate, a novel knowledge editing paradigm that aims to bridge the gap between theoretical knowledge editing methods and their real-world applicability. Specifically, (1) our framework mitigates overfitting via Targeted Proximal Supervised Fine-Tuning (TPSFT) that localizes the edit via a trust-region objective to limit policy drift; (2) Then, a consolidation stage using Group Relative Policy Optimization (GRPO) aligns the edited knowledge with CoT-based inference policy by optimizing trajectory-level behavior under comprehensive reward signals. Extensive experiments demonstrate our framework consistently improves editing reliability and generalization under real-world evaluations, while better preserving locality and pre-trained capabilities.
PDF72December 13, 2025