Édition en contexte : Apprentissage de connaissances à partir de distributions auto-induit
In-Context Editing: Learning Knowledge from Self-Induced Distributions
June 17, 2024
Auteurs: Siyuan Qi, Bangcheng Yang, Kailin Jiang, Xiaobo Wang, Jiaqi Li, Yifan Zhong, Yaodong Yang, Zilong Zheng
cs.AI
Résumé
Le paradigme actuel de fine-tuning pour les modèles de langage est fragile dans les scénarios d'édition de connaissances, où le modèle doit intégrer de nouvelles informations sans nécessiter un réentraînement extensif. Cette fragilité se traduit souvent par un surajustement, une réduction des performances et une génération de langage peu naturelle. Pour remédier à cela, nous proposons l'Édition Contextuelle Cohérente (Consistent In-Context Editing, ICE), une approche novatrice qui exploite la capacité d'apprentissage contextuel du modèle pour l'ajuster vers une distribution contextuelle plutôt qu'une cible one-hot. ICE introduit un cadre d'optimisation simple qui inclut à la fois une cible et une procédure, améliorant ainsi la robustesse et l'efficacité des méthodes de tuning basées sur le gradient. Nous fournissons des analyses approfondies d'ICE à travers quatre aspects critiques de l'édition de connaissances : la précision, la localité, la généralisation et la qualité linguistique, mettant en avant ses avantages. Les résultats expérimentaux sur quatre ensembles de données confirment l'efficacité d'ICE et démontrent son potentiel pour l'édition continue, garantissant que les informations mises à jour sont intégrées tout en préservant l'intégrité du modèle.
English
The existing fine-tuning paradigm for language models is brittle in knowledge
editing scenarios, where the model must incorporate new information without
extensive retraining. This brittleness often results in overfitting, reduced
performance, and unnatural language generation. To address this, we propose
Consistent In-Context Editing (ICE), a novel approach that leverages the
model's in-context learning capability to tune toward a contextual distribution
rather than a one-hot target. ICE introduces a straightforward optimization
framework that includes both a target and a procedure, enhancing the robustness
and effectiveness of gradient-based tuning methods. We provide analytical
insights into ICE across four critical aspects of knowledge editing: accuracy,
locality, generalization, and linguistic quality, showing its advantages.
Experimental results across four datasets confirm the effectiveness of ICE and
demonstrate its potential for continual editing, ensuring that updated
information is incorporated while preserving the integrity of the model.Summary
AI-Generated Summary