Modifica in Contesto: Apprendimento della Conoscenza da Distribuzioni Autoindotte
In-Context Editing: Learning Knowledge from Self-Induced Distributions
June 17, 2024
Autori: Siyuan Qi, Bangcheng Yang, Kailin Jiang, Xiaobo Wang, Jiaqi Li, Yifan Zhong, Yaodong Yang, Zilong Zheng
cs.AI
Abstract
Il paradigma esistente di fine-tuning per i modelli linguistici risulta fragile negli scenari di modifica della conoscenza, in cui il modello deve incorporare nuove informazioni senza un ampio riaddestramento. Questa fragilità spesso porta a overfitting, riduzione delle prestazioni e generazione di linguaggio innaturale. Per affrontare questo problema, proponiamo Consistent In-Context Editing (ICE), un approccio innovativo che sfrutta la capacità di apprendimento contestuale del modello per adattarsi a una distribuzione contestuale piuttosto che a un target one-hot. ICE introduce un framework di ottimizzazione semplice che include sia un target che una procedura, migliorando la robustezza e l'efficacia dei metodi di tuning basati su gradienti. Forniamo approfondimenti analitici su ICE in quattro aspetti critici della modifica della conoscenza: accuratezza, località, generalizzazione e qualità linguistica, evidenziandone i vantaggi. I risultati sperimentali su quattro dataset confermano l'efficacia di ICE e ne dimostrano il potenziale per la modifica continua, garantendo che le informazioni aggiornate vengano incorporate preservando l'integrità del modello.
English
The existing fine-tuning paradigm for language models is brittle in knowledge
editing scenarios, where the model must incorporate new information without
extensive retraining. This brittleness often results in overfitting, reduced
performance, and unnatural language generation. To address this, we propose
Consistent In-Context Editing (ICE), a novel approach that leverages the
model's in-context learning capability to tune toward a contextual distribution
rather than a one-hot target. ICE introduces a straightforward optimization
framework that includes both a target and a procedure, enhancing the robustness
and effectiveness of gradient-based tuning methods. We provide analytical
insights into ICE across four critical aspects of knowledge editing: accuracy,
locality, generalization, and linguistic quality, showing its advantages.
Experimental results across four datasets confirm the effectiveness of ICE and
demonstrate its potential for continual editing, ensuring that updated
information is incorporated while preserving the integrity of the model.