Edição em Contexto: Aprendendo Conhecimento a partir de Distribuições Autoinduzidas
In-Context Editing: Learning Knowledge from Self-Induced Distributions
June 17, 2024
Autores: Siyuan Qi, Bangcheng Yang, Kailin Jiang, Xiaobo Wang, Jiaqi Li, Yifan Zhong, Yaodong Yang, Zilong Zheng
cs.AI
Resumo
O paradigma existente de ajuste fino para modelos de linguagem é frágil em cenários de edição de conhecimento, onde o modelo deve incorporar novas informações sem extenso retreinamento. Essa fragilidade frequentemente resulta em overfitting, redução de desempenho e geração de linguagem não natural. Para abordar isso, propomos o Consistent In-Context Editing (ICE), uma abordagem inovadora que aproveita a capacidade de aprendizado em contexto do modelo para ajustá-lo em direção a uma distribuição contextual em vez de um alvo one-hot. O ICE introduz uma estrutura de otimização direta que inclui tanto um alvo quanto um procedimento, aprimorando a robustez e a eficácia dos métodos de ajuste baseados em gradiente. Fornecemos insights analíticos sobre o ICE em quatro aspectos críticos da edição de conhecimento: precisão, localidade, generalização e qualidade linguística, mostrando suas vantagens. Resultados experimentais em quatro conjuntos de dados confirmam a eficácia do ICE e demonstram seu potencial para edição contínua, garantindo que as informações atualizadas sejam incorporadas enquanto a integridade do modelo é preservada.
English
The existing fine-tuning paradigm for language models is brittle in knowledge
editing scenarios, where the model must incorporate new information without
extensive retraining. This brittleness often results in overfitting, reduced
performance, and unnatural language generation. To address this, we propose
Consistent In-Context Editing (ICE), a novel approach that leverages the
model's in-context learning capability to tune toward a contextual distribution
rather than a one-hot target. ICE introduces a straightforward optimization
framework that includes both a target and a procedure, enhancing the robustness
and effectiveness of gradient-based tuning methods. We provide analytical
insights into ICE across four critical aspects of knowledge editing: accuracy,
locality, generalization, and linguistic quality, showing its advantages.
Experimental results across four datasets confirm the effectiveness of ICE and
demonstrate its potential for continual editing, ensuring that updated
information is incorporated while preserving the integrity of the model.