LM2: Modelos de Grande Memória
LM2: Large Memory Models
February 9, 2025
Autores: Jikun Kang, Wenqi Wu, Filippos Christianos, Alex J. Chan, Fraser Greenlee, George Thomas, Marvin Purtorab, Andy Toulis
cs.AI
Resumo
Este artigo apresenta o Modelo de Memória Ampliada (LM2), uma arquitetura Transformer somente de decodificador aprimorada com um módulo de memória auxiliar que visa abordar as limitações dos Transformers padrão em raciocínio de múltiplas etapas, argumentação relacional e síntese de informações distribuídas em contextos longos. O LM2 proposto incorpora um módulo de memória que atua como um repositório de representações contextuais, interagindo com tokens de entrada por meio de atenção cruzada e atualizando-se por meio de mecanismos de portão. Para preservar as capacidades gerais dos Transformers, o LM2 mantém o fluxo de informações original ao mesmo tempo que integra um caminho de memória complementar. Resultados experimentais no benchmark BABILong demonstram que o modelo LM2 supera tanto o modelo RMT com memória aumentada em 37,1% quanto o modelo de referência Llama-3.2 em 86,3% em média em todas as tarefas. O LM2 exibe capacidades excepcionais em inferência de múltiplos saltos, raciocínio numérico e perguntas e respostas em contextos extensos. No conjunto de dados MMLU, ele alcança uma melhoria de 5,0% em relação a um modelo vanilla pré-treinado, demonstrando que seu módulo de memória não degrada o desempenho em tarefas gerais. Além disso, em nossa análise, exploramos a interpretabilidade da memória, a eficácia dos módulos de memória e o comportamento no tempo de teste. Nossas descobertas enfatizam a importância da memória explícita na melhoria das arquiteturas Transformer.
English
This paper introduces the Large Memory Model (LM2), a decoder-only
Transformer architecture enhanced with an auxiliary memory module that aims to
address the limitations of standard Transformers in multi-step reasoning,
relational argumentation, and synthesizing information distributed over long
contexts. The proposed LM2 incorporates a memory module that acts as a
contextual representation repository, interacting with input tokens via cross
attention and updating through gating mechanisms. To preserve the Transformers
general-purpose capabilities, LM2 maintains the original information flow while
integrating a complementary memory pathway. Experimental results on the
BABILong benchmark demonstrate that the LM2model outperforms both the
memory-augmented RMT model by 37.1% and the baseline Llama-3.2 model by 86.3%
on average across tasks. LM2 exhibits exceptional capabilities in multi-hop
inference, numerical reasoning, and large-context question-answering. On the
MMLU dataset, it achieves a 5.0% improvement over a pre-trained vanilla model,
demonstrating that its memory module does not degrade performance on general
tasks. Further, in our analysis, we explore the memory interpretability,
effectiveness of memory modules, and test-time behavior. Our findings emphasize
the importance of explicit memory in enhancing Transformer architectures.