Une taille de lot d'édition plus grande est-elle toujours meilleure ? -- Une étude empirique sur l'édition de modèles avec Llama-3
Is Bigger Edit Batch Size Always Better? -- An Empirical Study on Model Editing with Llama-3
May 1, 2024
Auteurs: Junsang Yoon, Akshat Gupta, Gopala Anumanchipalli
cs.AI
Résumé
Cette étude présente une analyse ciblée de l'édition de modèles, axée sur le dernier modèle de langage de grande taille, Llama-3. Nous explorons l'efficacité des techniques populaires d'édition de modèles - ROME, MEMIT et EMMET, conçues pour des interventions précises au niveau des couches. Nous identifions les couches les plus efficaces pour les modifications ciblées grâce à une évaluation qui englobe jusqu'à 4096 modifications selon trois stratégies distinctes : l'édition séquentielle, l'édition par lots, et une approche hybride que nous appelons édition séquentielle-par lots. Nos résultats indiquent qu'augmenter la taille des lots de modifications peut dégrader plus significativement les performances du modèle que l'utilisation de lots de modifications plus petits de manière séquentielle pour un nombre égal de modifications. Ainsi, nous soutenons que l'édition séquentielle de modèles est un élément important pour la mise à l'échelle des méthodes d'édition de modèles, et que les recherches futures devraient se concentrer sur des méthodes combinant à la fois l'édition par lots et l'édition séquentielle. Cette observation suggère une limitation potentielle des méthodes actuelles d'édition de modèles qui tendent vers des tailles de lots de modifications plus importantes, et nous espérons qu'elle ouvre la voie à des investigations futures sur l'optimisation des tailles de lots et des performances de l'édition de modèles.
English
This study presents a targeted model editing analysis focused on the latest
large language model, Llama-3. We explore the efficacy of popular model editing
techniques - ROME, MEMIT, and EMMET, which are designed for precise layer
interventions. We identify the most effective layers for targeted edits through
an evaluation that encompasses up to 4096 edits across three distinct
strategies: sequential editing, batch editing, and a hybrid approach we call as
sequential-batch editing. Our findings indicate that increasing edit
batch-sizes may degrade model performance more significantly than using smaller
edit batches sequentially for equal number of edits. With this, we argue that
sequential model editing is an important component for scaling model editing
methods and future research should focus on methods that combine both batched
and sequential editing. This observation suggests a potential limitation in
current model editing methods which push towards bigger edit batch sizes, and
we hope it paves way for future investigations into optimizing batch sizes and
model editing performance.Summary
AI-Generated Summary