EtCon: Editar-consolidar para uma Edição de Conhecimento Confiável

Resumo

A edição de conhecimento visa atualizar factos específicos em modelos de linguagem de grande escala (LLMs) sem necessidade de re-treinamento completo. Esforços anteriores procuraram ajustar as camadas de conhecimento dos LLMs, demonstrando eficácia na realização de edições seletivas. No entanto, existe uma lacuna significativa entre o seu desempenho em avaliações controladas com *teacher-forcing* e a sua eficácia real em cenários de aprendizagem ao longo da vida, o que limita grandemente a sua aplicabilidade prática. A análise empírica deste trabalho revela dois problemas recorrentes associados a esta lacuna: (1) A maioria dos métodos tradicionais leva o modelo editado a sofrer de sobre-ajuste (*overfitting*) ao novo facto, degradando assim as capacidades pré-treinadas; (2) Existe uma ausência crítica de uma fase de consolidação de conhecimento, deixando os novos factos insuficientemente integrados no comportamento do LLM em tempo de inferência sob geração autoregressiva, levando assim a um desajuste entre o conhecimento paramétrico e o comportamento de geração real. Para tal, propomos *Edit-then-Consolidate* (Editar-e-Depois-Consolidar), um novo paradigma de edição de conhecimento que visa colmatar a lacuna entre os métodos teóricos de edição de conhecimento e a sua aplicabilidade no mundo real. Especificamente, (1) a nossa estrutura mitiga o sobre-ajuste através de *Targeted Proximal Supervised Fine-Tuning* (Ajuste Fino Supervisionado Proximal Direcionado - TPSFT), que localiza a edição através de um objetivo de região de confiança para limitar o desvio da política; (2) De seguida, uma fase de consolidação que utiliza *Group Relative Policy Optimization* (Otimização de Política Relativa de Grupo - GRPO) alinha o conhecimento editado com a política de inferência baseada em *Chain-of-Thought* (CoT), otimizando o comportamento ao nível do trajeto sob sinais de recompensa abrangentes. Experiências extensivas demonstram que a nossa estrutura melhora consistentemente a fiabilidade e a generalização da edição em avaliações do mundo real, preservando melhor a localidade e as capacidades pré-treinadas.

English

Knowledge editing aims to update specific facts in large language models (LLMs) without full retraining. Prior efforts sought to tune the knowledge layers of LLMs, proving effective for making selective edits. However, a significant gap exists between their performance in controlled, teacher-forcing evaluations and their real-world effectiveness in lifelong learning scenarios, which greatly limits their practical applicability. This work's empirical analysis reveals two recurring issues associated with this gap: (1) Most traditional methods lead the edited model to overfit to the new fact, thereby degrading pre-trained capabilities; (2) There is a critical absence of a knowledge consolidation stage, leaving new facts insufficiently integrated into LLMs' inference-time behavior under autoregressive generation, thereby leading to a mismatch between parametric knowledge and actual generation behavior. To this end, we propose Edit-then-Consolidate, a novel knowledge editing paradigm that aims to bridge the gap between theoretical knowledge editing methods and their real-world applicability. Specifically, (1) our framework mitigates overfitting via Targeted Proximal Supervised Fine-Tuning (TPSFT) that localizes the edit via a trust-region objective to limit policy drift; (2) Then, a consolidation stage using Group Relative Policy Optimization (GRPO) aligns the edited knowledge with CoT-based inference policy by optimizing trajectory-level behavior under comprehensive reward signals. Extensive experiments demonstrate our framework consistently improves editing reliability and generalization under real-world evaluations, while better preserving locality and pre-trained capabilities.

EtCon: Editar-consolidar para uma Edição de Conhecimento Confiável

EtCon: Edit-then-Consolidate for Reliable Knowledge Editing

Resumo

Support