Um Tamanho Maior de Lote de Edição é Sempre Melhor? -- Um Estudo Empírico sobre Edição de Modelos com Llama-3
Is Bigger Edit Batch Size Always Better? -- An Empirical Study on Model Editing with Llama-3
May 1, 2024
Autores: Junsang Yoon, Akshat Gupta, Gopala Anumanchipalli
cs.AI
Resumo
Este estudo apresenta uma análise direcionada de edição de modelos focada no mais recente modelo de linguagem de grande escala, Llama-3. Exploramos a eficácia de técnicas populares de edição de modelos - ROME, MEMIT e EMMET, que são projetadas para intervenções precisas em camadas. Identificamos as camadas mais eficazes para edições direcionadas por meio de uma avaliação que abrange até 4096 edições em três estratégias distintas: edição sequencial, edição em lote e uma abordagem híbrida que chamamos de edição sequencial-em lote. Nossos resultados indicam que o aumento do tamanho dos lotes de edição pode degradar o desempenho do modelo de forma mais significativa do que o uso de lotes menores de edição sequencialmente para o mesmo número de edições. Com isso, argumentamos que a edição sequencial de modelos é um componente importante para a escalabilidade de métodos de edição de modelos, e pesquisas futuras devem se concentrar em métodos que combinem edição em lote e sequencial. Essa observação sugere uma limitação potencial nos métodos atuais de edição de modelos que buscam aumentar o tamanho dos lotes de edição, e esperamos que isso abra caminho para investigações futuras sobre a otimização do tamanho dos lotes e do desempenho da edição de modelos.
English
This study presents a targeted model editing analysis focused on the latest
large language model, Llama-3. We explore the efficacy of popular model editing
techniques - ROME, MEMIT, and EMMET, which are designed for precise layer
interventions. We identify the most effective layers for targeted edits through
an evaluation that encompasses up to 4096 edits across three distinct
strategies: sequential editing, batch editing, and a hybrid approach we call as
sequential-batch editing. Our findings indicate that increasing edit
batch-sizes may degrade model performance more significantly than using smaller
edit batches sequentially for equal number of edits. With this, we argue that
sequential model editing is an important component for scaling model editing
methods and future research should focus on methods that combine both batched
and sequential editing. This observation suggests a potential limitation in
current model editing methods which push towards bigger edit batch sizes, and
we hope it paves way for future investigations into optimizing batch sizes and
model editing performance.