Is een grotere batchgrootte voor bewerkingen altijd beter? -- Een empirische studie naar modelbewerking met Llama-3
Is Bigger Edit Batch Size Always Better? -- An Empirical Study on Model Editing with Llama-3
May 1, 2024
Auteurs: Junsang Yoon, Akshat Gupta, Gopala Anumanchipalli
cs.AI
Samenvatting
Dit onderzoek presenteert een gerichte analyse van modelbewerkingen, gericht op het nieuwste grote taalmodel, Llama-3. We onderzoeken de effectiviteit van populaire modelbewerkingstechnieken - ROME, MEMIT en EMMET, die zijn ontworpen voor precieze interventies op laagniveau. We identificeren de meest effectieve lagen voor gerichte bewerkingen door middel van een evaluatie die tot 4096 bewerkingen omvat, verdeeld over drie verschillende strategieën: sequentiële bewerking, batchbewerking en een hybride aanpak die we sequentiële-batchbewerking noemen. Onze bevindingen geven aan dat het vergroten van de batchgrootte van bewerkingen de modelprestaties sterker kan verslechteren dan het sequentieel gebruiken van kleinere bewerkingsbatches voor hetzelfde aantal bewerkingen. Hiermee stellen we dat sequentiële modelbewerking een belangrijk onderdeel is voor het schalen van modelbewerkingsmethoden en dat toekomstig onderzoek zich zou moeten richten op methoden die zowel batch- als sequentiële bewerking combineren. Deze observatie suggereert een mogelijke beperking in huidige modelbewerkingsmethoden die streven naar grotere batchgroottes, en we hopen dat dit de weg vrijmaakt voor toekomstig onderzoek naar het optimaliseren van batchgroottes en modelbewerkingsprestaties.
English
This study presents a targeted model editing analysis focused on the latest
large language model, Llama-3. We explore the efficacy of popular model editing
techniques - ROME, MEMIT, and EMMET, which are designed for precise layer
interventions. We identify the most effective layers for targeted edits through
an evaluation that encompasses up to 4096 edits across three distinct
strategies: sequential editing, batch editing, and a hybrid approach we call as
sequential-batch editing. Our findings indicate that increasing edit
batch-sizes may degrade model performance more significantly than using smaller
edit batches sequentially for equal number of edits. With this, we argue that
sequential model editing is an important component for scaling model editing
methods and future research should focus on methods that combine both batched
and sequential editing. This observation suggests a potential limitation in
current model editing methods which push towards bigger edit batch sizes, and
we hope it paves way for future investigations into optimizing batch sizes and
model editing performance.