ChatPaper.aiChatPaper

Um Tamanho Maior de Lote de Edição é Sempre Melhor? -- Um Estudo Empírico sobre Edição de Modelos com Llama-3

Is Bigger Edit Batch Size Always Better? -- An Empirical Study on Model Editing with Llama-3

May 1, 2024
Autores: Junsang Yoon, Akshat Gupta, Gopala Anumanchipalli
cs.AI

Resumo

Este estudo apresenta uma análise direcionada de edição de modelos focada no mais recente modelo de linguagem de grande escala, Llama-3. Exploramos a eficácia de técnicas populares de edição de modelos - ROME, MEMIT e EMMET, que são projetadas para intervenções precisas em camadas. Identificamos as camadas mais eficazes para edições direcionadas por meio de uma avaliação que abrange até 4096 edições em três estratégias distintas: edição sequencial, edição em lote e uma abordagem híbrida que chamamos de edição sequencial-em lote. Nossos resultados indicam que o aumento do tamanho dos lotes de edição pode degradar o desempenho do modelo de forma mais significativa do que o uso de lotes menores de edição sequencialmente para o mesmo número de edições. Com isso, argumentamos que a edição sequencial de modelos é um componente importante para a escalabilidade de métodos de edição de modelos, e pesquisas futuras devem se concentrar em métodos que combinem edição em lote e sequencial. Essa observação sugere uma limitação potencial nos métodos atuais de edição de modelos que buscam aumentar o tamanho dos lotes de edição, e esperamos que isso abra caminho para investigações futuras sobre a otimização do tamanho dos lotes e do desempenho da edição de modelos.
English
This study presents a targeted model editing analysis focused on the latest large language model, Llama-3. We explore the efficacy of popular model editing techniques - ROME, MEMIT, and EMMET, which are designed for precise layer interventions. We identify the most effective layers for targeted edits through an evaluation that encompasses up to 4096 edits across three distinct strategies: sequential editing, batch editing, and a hybrid approach we call as sequential-batch editing. Our findings indicate that increasing edit batch-sizes may degrade model performance more significantly than using smaller edit batches sequentially for equal number of edits. With this, we argue that sequential model editing is an important component for scaling model editing methods and future research should focus on methods that combine both batched and sequential editing. This observation suggests a potential limitation in current model editing methods which push towards bigger edit batch sizes, and we hope it paves way for future investigations into optimizing batch sizes and model editing performance.
PDF201December 15, 2024