In-Context Bewerking: Kennis Leren uit Zelfgeïnduceerde Distributies
In-Context Editing: Learning Knowledge from Self-Induced Distributions
June 17, 2024
Auteurs: Siyuan Qi, Bangcheng Yang, Kailin Jiang, Xiaobo Wang, Jiaqi Li, Yifan Zhong, Yaodong Yang, Zilong Zheng
cs.AI
Samenvatting
Het bestaande fine-tuning paradigma voor taalmodelen is broos in scenario's van kennisbewerking, waarbij het model nieuwe informatie moet integreren zonder uitgebreide hertraining. Deze broosheid resulteert vaak in overfitting, verminderde prestaties en onnatuurlijke taalgeneratie. Om dit aan te pakken, stellen we Consistent In-Context Editing (ICE) voor, een nieuwe aanpak die gebruikmaakt van de in-context leercapaciteit van het model om af te stemmen op een contextuele verdeling in plaats van een one-hot doel. ICE introduceert een eenvoudig optimalisatiekader dat zowel een doel als een procedure omvat, waardoor de robuustheid en effectiviteit van op gradienten gebaseerde tuningsmethoden worden verbeterd. We bieden analytische inzichten in ICE op vier kritieke aspecten van kennisbewerking: nauwkeurigheid, lokaliteit, generalisatie en linguïstische kwaliteit, en tonen de voordelen ervan aan. Experimentele resultaten over vier datasets bevestigen de effectiviteit van ICE en demonstreren het potentieel voor continue bewerking, waarbij ervoor wordt gezorgd dat bijgewerkte informatie wordt geïntegreerd terwijl de integriteit van het model behouden blijft.
English
The existing fine-tuning paradigm for language models is brittle in knowledge
editing scenarios, where the model must incorporate new information without
extensive retraining. This brittleness often results in overfitting, reduced
performance, and unnatural language generation. To address this, we propose
Consistent In-Context Editing (ICE), a novel approach that leverages the
model's in-context learning capability to tune toward a contextual distribution
rather than a one-hot target. ICE introduces a straightforward optimization
framework that includes both a target and a procedure, enhancing the robustness
and effectiveness of gradient-based tuning methods. We provide analytical
insights into ICE across four critical aspects of knowledge editing: accuracy,
locality, generalization, and linguistic quality, showing its advantages.
Experimental results across four datasets confirm the effectiveness of ICE and
demonstrate its potential for continual editing, ensuring that updated
information is incorporated while preserving the integrity of the model.