ChatPaper.aiChatPaper

Modelos de Linguagem Aumentados por Memória através de Mistura de Especialistas em Palavras

Memory Augmented Language Models through Mixture of Word Experts

November 15, 2023
Autores: Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus
cs.AI

Resumo

Aumentar o número de parâmetros de modelos de linguagem tem se mostrado uma abordagem eficaz para melhorar o desempenho. Para modelos densos, aumentar o tamanho do modelo aumenta proporcionalmente a pegada computacional do modelo. Neste trabalho, buscamos desacoplar agressivamente a capacidade de aprendizado e os FLOPs por meio de modelos do tipo Mixture-of-Experts (MoE) com funções de roteamento baseadas em vocabulário rico em conhecimento e especialistas. Nossa abordagem proposta, denominada Mixture of Word Experts (MoWE), pode ser vista como um modelo aumentado por memória, onde um grande conjunto de especialistas específicos para palavras desempenha o papel de uma memória esparsa. Demonstramos que o MoWE tem um desempenho significativamente melhor do que a família de modelos T5 com um número similar de FLOPs em uma variedade de tarefas de NLP. Além disso, o MoWE supera modelos MoE regulares em tarefas intensivas em conhecimento e tem um desempenho similar a abordagens mais complexas aumentadas por memória que frequentemente exigem a invocação de mecanismos personalizados para buscar a memória esparsa.
English
Scaling up the number of parameters of language models has proven to be an effective approach to improve performance. For dense models, increasing model size proportionally increases the model's computation footprint. In this work, we seek to aggressively decouple learning capacity and FLOPs through Mixture-of-Experts (MoE) style models with large knowledge-rich vocabulary based routing functions and experts. Our proposed approach, dubbed Mixture of Word Experts (MoWE), can be seen as a memory augmented model, where a large set of word-specific experts play the role of a sparse memory. We demonstrate that MoWE performs significantly better than the T5 family of models with similar number of FLOPs in a variety of NLP tasks. Additionally, MoWE outperforms regular MoE models on knowledge intensive tasks and has similar performance to more complex memory augmented approaches that often require to invoke custom mechanisms to search the sparse memory.
PDF181December 15, 2024