ChatPaper.aiChatPaper

Édition en contexte : Apprentissage de connaissances à partir de distributions auto-induit

In-Context Editing: Learning Knowledge from Self-Induced Distributions

June 17, 2024
Auteurs: Siyuan Qi, Bangcheng Yang, Kailin Jiang, Xiaobo Wang, Jiaqi Li, Yifan Zhong, Yaodong Yang, Zilong Zheng
cs.AI

Résumé

Le paradigme actuel de fine-tuning pour les modèles de langage est fragile dans les scénarios d'édition de connaissances, où le modèle doit intégrer de nouvelles informations sans nécessiter un réentraînement extensif. Cette fragilité se traduit souvent par un surajustement, une réduction des performances et une génération de langage peu naturelle. Pour remédier à cela, nous proposons l'Édition Contextuelle Cohérente (Consistent In-Context Editing, ICE), une approche novatrice qui exploite la capacité d'apprentissage contextuel du modèle pour l'ajuster vers une distribution contextuelle plutôt qu'une cible one-hot. ICE introduit un cadre d'optimisation simple qui inclut à la fois une cible et une procédure, améliorant ainsi la robustesse et l'efficacité des méthodes de tuning basées sur le gradient. Nous fournissons des analyses approfondies d'ICE à travers quatre aspects critiques de l'édition de connaissances : la précision, la localité, la généralisation et la qualité linguistique, mettant en avant ses avantages. Les résultats expérimentaux sur quatre ensembles de données confirment l'efficacité d'ICE et démontrent son potentiel pour l'édition continue, garantissant que les informations mises à jour sont intégrées tout en préservant l'intégrité du modèle.
English
The existing fine-tuning paradigm for language models is brittle in knowledge editing scenarios, where the model must incorporate new information without extensive retraining. This brittleness often results in overfitting, reduced performance, and unnatural language generation. To address this, we propose Consistent In-Context Editing (ICE), a novel approach that leverages the model's in-context learning capability to tune toward a contextual distribution rather than a one-hot target. ICE introduces a straightforward optimization framework that includes both a target and a procedure, enhancing the robustness and effectiveness of gradient-based tuning methods. We provide analytical insights into ICE across four critical aspects of knowledge editing: accuracy, locality, generalization, and linguistic quality, showing its advantages. Experimental results across four datasets confirm the effectiveness of ICE and demonstrate its potential for continual editing, ensuring that updated information is incorporated while preserving the integrity of the model.

Summary

AI-Generated Summary

PDF155December 6, 2024