Всегда ли больший размер пакета редактирования лучше? -- Эмпирическое исследование модели редактирования с использованием Llama-3
Is Bigger Edit Batch Size Always Better? -- An Empirical Study on Model Editing with Llama-3
May 1, 2024
Авторы: Junsang Yoon, Akshat Gupta, Gopala Anumanchipalli
cs.AI
Аннотация
Данное исследование представляет анализ модификации модели, сосредоточенный на последней крупной языковой модели Llama-3. Мы исследуем эффективность популярных техник модификации модели - ROME, MEMIT и EMMET, предназначенных для точных вмешательств на уровне слоев. Мы определяем наиболее эффективные слои для целевых изменений через оценку, охватывающую до 4096 изменений по трем различным стратегиям: последовательная модификация, пакетная модификация и гибридный подход, который мы называем последовательно-пакетной модификацией. Наши результаты показывают, что увеличение размеров пакета изменений может более значительно снизить производительность модели, чем использование более маленьких пакетов изменений последовательно для равного количества изменений. На основании этого мы утверждаем, что последовательная модификация модели является важным компонентом для масштабирования методов модификации модели, и будущие исследования должны сосредоточиться на методах, объединяющих как пакетную, так и последовательную модификацию. Это наблюдение указывает на потенциальное ограничение в текущих методах модификации модели, которые стремятся к увеличению размеров пакетов изменений, и мы надеемся, что это откроет путь для будущих исследований по оптимизации размеров пакетов и производительности модификации модели.
English
This study presents a targeted model editing analysis focused on the latest
large language model, Llama-3. We explore the efficacy of popular model editing
techniques - ROME, MEMIT, and EMMET, which are designed for precise layer
interventions. We identify the most effective layers for targeted edits through
an evaluation that encompasses up to 4096 edits across three distinct
strategies: sequential editing, batch editing, and a hybrid approach we call as
sequential-batch editing. Our findings indicate that increasing edit
batch-sizes may degrade model performance more significantly than using smaller
edit batches sequentially for equal number of edits. With this, we argue that
sequential model editing is an important component for scaling model editing
methods and future research should focus on methods that combine both batched
and sequential editing. This observation suggests a potential limitation in
current model editing methods which push towards bigger edit batch sizes, and
we hope it paves way for future investigations into optimizing batch sizes and
model editing performance.Summary
AI-Generated Summary