ChatPaper.aiChatPaper

Une taille de lot d'édition plus grande est-elle toujours meilleure ? -- Une étude empirique sur l'édition de modèles avec Llama-3

Is Bigger Edit Batch Size Always Better? -- An Empirical Study on Model Editing with Llama-3

May 1, 2024
Auteurs: Junsang Yoon, Akshat Gupta, Gopala Anumanchipalli
cs.AI

Résumé

Cette étude présente une analyse ciblée de l'édition de modèles, axée sur le dernier modèle de langage de grande taille, Llama-3. Nous explorons l'efficacité des techniques populaires d'édition de modèles - ROME, MEMIT et EMMET, conçues pour des interventions précises au niveau des couches. Nous identifions les couches les plus efficaces pour les modifications ciblées grâce à une évaluation qui englobe jusqu'à 4096 modifications selon trois stratégies distinctes : l'édition séquentielle, l'édition par lots, et une approche hybride que nous appelons édition séquentielle-par lots. Nos résultats indiquent qu'augmenter la taille des lots de modifications peut dégrader plus significativement les performances du modèle que l'utilisation de lots de modifications plus petits de manière séquentielle pour un nombre égal de modifications. Ainsi, nous soutenons que l'édition séquentielle de modèles est un élément important pour la mise à l'échelle des méthodes d'édition de modèles, et que les recherches futures devraient se concentrer sur des méthodes combinant à la fois l'édition par lots et l'édition séquentielle. Cette observation suggère une limitation potentielle des méthodes actuelles d'édition de modèles qui tendent vers des tailles de lots de modifications plus importantes, et nous espérons qu'elle ouvre la voie à des investigations futures sur l'optimisation des tailles de lots et des performances de l'édition de modèles.
English
This study presents a targeted model editing analysis focused on the latest large language model, Llama-3. We explore the efficacy of popular model editing techniques - ROME, MEMIT, and EMMET, which are designed for precise layer interventions. We identify the most effective layers for targeted edits through an evaluation that encompasses up to 4096 edits across three distinct strategies: sequential editing, batch editing, and a hybrid approach we call as sequential-batch editing. Our findings indicate that increasing edit batch-sizes may degrade model performance more significantly than using smaller edit batches sequentially for equal number of edits. With this, we argue that sequential model editing is an important component for scaling model editing methods and future research should focus on methods that combine both batched and sequential editing. This observation suggests a potential limitation in current model editing methods which push towards bigger edit batch sizes, and we hope it paves way for future investigations into optimizing batch sizes and model editing performance.

Summary

AI-Generated Summary

PDF211December 15, 2024