In-Context-Bearbeitung: Lernen von Wissen aus selbstinduzierten Verteilungen
In-Context Editing: Learning Knowledge from Self-Induced Distributions
June 17, 2024
Autoren: Siyuan Qi, Bangcheng Yang, Kailin Jiang, Xiaobo Wang, Jiaqi Li, Yifan Zhong, Yaodong Yang, Zilong Zheng
cs.AI
Zusammenfassung
Das bestehende Feinabstimmungs-Paradigma für Sprachmodelle ist in Szenarien des Wissens-Editierens spröde, in denen das Modell neue Informationen ohne umfangreiches Neutraining integrieren muss. Diese Sprödigkeit führt oft zu Überanpassung, reduzierter Leistung und unnatürlicher Sprachgenerierung. Um dies zu lösen, schlagen wir Consistent In-Context Editing (ICE) vor, einen neuartigen Ansatz, der die Fähigkeit des Modells zum kontextbezogenen Lernen nutzt, um auf eine kontextuelle Verteilung anstatt eines One-Hot-Ziels abzustimmen. ICE führt ein einfaches Optimierungsrahmenwerk ein, das sowohl ein Ziel als auch ein Verfahren umfasst, um die Robustheit und Effektivität von auf Gradienten basierenden Abstimmungsmethoden zu verbessern. Wir bieten analytische Einblicke in ICE über vier wesentliche Aspekte des Wissens-Editierens: Genauigkeit, Lokalität, Verallgemeinerung und sprachliche Qualität und zeigen seine Vorteile. Experimentelle Ergebnisse über vier Datensätze bestätigen die Wirksamkeit von ICE und zeigen sein Potenzial für kontinuierliches Editieren, um sicherzustellen, dass aktualisierte Informationen integriert werden, während die Integrität des Modells erhalten bleibt.
English
The existing fine-tuning paradigm for language models is brittle in knowledge
editing scenarios, where the model must incorporate new information without
extensive retraining. This brittleness often results in overfitting, reduced
performance, and unnatural language generation. To address this, we propose
Consistent In-Context Editing (ICE), a novel approach that leverages the
model's in-context learning capability to tune toward a contextual distribution
rather than a one-hot target. ICE introduces a straightforward optimization
framework that includes both a target and a procedure, enhancing the robustness
and effectiveness of gradient-based tuning methods. We provide analytical
insights into ICE across four critical aspects of knowledge editing: accuracy,
locality, generalization, and linguistic quality, showing its advantages.
Experimental results across four datasets confirm the effectiveness of ICE and
demonstrate its potential for continual editing, ensuring that updated
information is incorporated while preserving the integrity of the model.Summary
AI-Generated Summary