ChatPaper.aiChatPaper

MoM: Modellazione di Sequenze Lineari con Miscela di Memorie

MoM: Linear Sequence Modeling with Mixture-of-Memories

February 19, 2025
Autori: Jusen Du, Weigao Sun, Disen Lan, Jiaxi Hu, Yu Cheng
cs.AI

Abstract

I metodi di modellazione di sequenze lineari, come l'attenzione lineare, la modellazione dello spazio degli stati e le RNN lineari, offrono significativi miglioramenti in termini di efficienza riducendo la complessità dell'addestramento e dell'inferenza. Tuttavia, questi metodi comprimono tipicamente l'intera sequenza di input in un unico stato di memoria di dimensione fissa, il che porta a prestazioni subottimali nei task downstream intensivi di richiamo. Traendo ispirazione dalle neuroscienze, in particolare dalla capacità del cervello di mantenere una memoria a lungo termine robusta mitigando l'"interferenza di memoria", introduciamo una nuova architettura chiamata Mixture-of-Memories (MoM). MoM utilizza più stati di memoria indipendenti, con una rete di routing che indirizza i token di input a specifici stati di memoria. Questo approccio migliora notevolmente la capacità complessiva della memoria minimizzando l'interferenza di memoria. Di conseguenza, MoM si comporta eccezionalmente bene nei task intensivi di richiamo, superando le tecniche esistenti di modellazione di sequenze lineari. Nonostante l'incorporazione di più stati di memoria, il calcolo di ciascuno stato di memoria rimane lineare in complessità, consentendo a MoM di mantenere il vantaggio della complessità lineare durante l'addestramento e una complessità costante durante l'inferenza. I nostri risultati sperimentali mostrano che MoM supera significativamente i modelli di sequenze lineari attuali nei task linguistici downstream, in particolare quelli intensivi di richiamo, e raggiunge persino prestazioni comparabili ai modelli Transformer. Il codice è rilasciato su https://github.com/OpenSparseLLMs/MoM e fa anche parte di https://github.com/OpenSparseLLMs/Linear-MoE.
English
Linear sequence modeling methods, such as linear attention, state space modeling, and linear RNNs, offer significant efficiency improvements by reducing the complexity of training and inference. However, these methods typically compress the entire input sequence into a single fixed-size memory state, which leads to suboptimal performance on recall-intensive downstream tasks. Drawing inspiration from neuroscience, particularly the brain's ability to maintain robust long-term memory while mitigating "memory interference", we introduce a novel architecture called Mixture-of-Memories (MoM). MoM utilizes multiple independent memory states, with a router network directing input tokens to specific memory states. This approach greatly enhances the overall memory capacity while minimizing memory interference. As a result, MoM performs exceptionally well on recall-intensive tasks, surpassing existing linear sequence modeling techniques. Despite incorporating multiple memory states, the computation of each memory state remains linear in complexity, allowing MoM to retain the linear-complexity advantage during training, while constant-complexity during inference. Our experimental results show that MoM significantly outperforms current linear sequence models on downstream language tasks, particularly recall-intensive tasks, and even achieves performance comparable to Transformer models. The code is released at https://github.com/OpenSparseLLMs/MoM and is also released as a part of https://github.com/OpenSparseLLMs/Linear-MoE.

Summary

AI-Generated Summary

PDF362February 20, 2025