LM2: Modelli con Ampia Memoria

Abstract

Questo articolo introduce il Modello di Grande Memoria (LM2), un'architettura Transformer solo decoder potenziata con un modulo di memoria ausiliario che mira ad affrontare le limitazioni dei Transformer standard nella ragionamento a più passaggi, nell'argomentazione relazionale e nella sintesi delle informazioni distribuite su contesti lunghi. Il LM2 proposto incorpora un modulo di memoria che funge da repository di rappresentazioni contestuali, interagendo con i token di input tramite attenzione incrociata e aggiornandosi attraverso meccanismi di gating. Per preservare le capacità generiche dei Transformer, LM2 mantiene il flusso di informazioni originale integrando un percorso di memoria complementare. I risultati sperimentali sul benchmark BABILong dimostrano che il modello LM2 supera sia il modello RMT potenziato dalla memoria del 37,1% che il modello di base Llama-3.2 del 86,3% in media su diverse attività. LM2 mostra capacità eccezionali nell'inferenza a più salti, nel ragionamento numerico e nel questionario con contesti ampi. Sul dataset MMLU, ottiene un miglioramento del 5,0% rispetto a un modello vaniglia preaddestrato, dimostrando che il suo modulo di memoria non degrada le prestazioni su compiti generici. Inoltre, nella nostra analisi, esploriamo l'interpretabilità della memoria, l'efficacia dei moduli di memoria e il comportamento al momento del test. Le nostre conclusioni sottolineano l'importanza della memoria esplicita nel potenziare le architetture Transformer.

English

This paper introduces the Large Memory Model (LM2), a decoder-only Transformer architecture enhanced with an auxiliary memory module that aims to address the limitations of standard Transformers in multi-step reasoning, relational argumentation, and synthesizing information distributed over long contexts. The proposed LM2 incorporates a memory module that acts as a contextual representation repository, interacting with input tokens via cross attention and updating through gating mechanisms. To preserve the Transformers general-purpose capabilities, LM2 maintains the original information flow while integrating a complementary memory pathway. Experimental results on the BABILong benchmark demonstrate that the LM2model outperforms both the memory-augmented RMT model by 37.1% and the baseline Llama-3.2 model by 86.3% on average across tasks. LM2 exhibits exceptional capabilities in multi-hop inference, numerical reasoning, and large-context question-answering. On the MMLU dataset, it achieves a 5.0% improvement over a pre-trained vanilla model, demonstrating that its memory module does not degrade performance on general tasks. Further, in our analysis, we explore the memory interpretability, effectiveness of memory modules, and test-time behavior. Our findings emphasize the importance of explicit memory in enhancing Transformer architectures.

LM2: Modelli con Ampia Memoria

LM2: Large Memory Models

Abstract

Support