Aumentare i Modelli Linguistici con Memoria a Lungo Termine

Abstract

I modelli linguistici di grandi dimensioni (LLM) esistenti possono gestire solo input di dimensioni fisse a causa del limite di lunghezza dell'input, impedendo loro di sfruttare informazioni contestuali ricche e di lungo periodo provenienti da input precedenti. Per affrontare questo problema, proponiamo un framework, denominato Language Models Augmented with Long-Term Memory (LongMem), che consente agli LLM di memorizzare una storia lunga. Progettiamo un'architettura di rete disaccoppiata innovativa, in cui il modello LLM originale viene congelato come codificatore di memoria e una rete laterale residua adattativa funge da recuperatore e lettore di memoria. Tale design di memoria disaccoppiata permette di memorizzare e aggiornare facilmente contesti passati di lungo periodo per il recupero della memoria, senza incorrere in problemi di obsolescenza della memoria. Potenziato con un addestramento adattativo arricchito dalla memoria, LongMem può quindi memorizzare contesti passati lunghi e utilizzare la memoria a lungo termine per la modellazione del linguaggio. Il modulo di recupero della memoria proposto è in grado di gestire contesti di lunghezza illimitata nel proprio archivio di memoria, apportando benefici a vari task downstream. In particolare, LongMem può ampliare la memoria a lungo termine fino a 65k token, consentendo così di memorizzare esempi dimostrativi extra come memoria a lungo termine per l'apprendimento in contesto. Gli esperimenti dimostrano che il nostro metodo supera modelli forti di contesto lungo su ChapterBreak, un benchmark impegnativo per la modellazione di contesti lunghi, e ottiene miglioramenti significativi nell'apprendimento in contesto arricchito dalla memoria rispetto agli LLM. I risultati dimostrano che il metodo proposto è efficace nell'aiutare i modelli linguistici a memorizzare e utilizzare contenuti di lungo periodo. Il nostro codice è open-source all'indirizzo https://aka.ms/LongMem.

English

Existing large language models (LLMs) can only afford fix-sized inputs due to the input length limit, preventing them from utilizing rich long-context information from past inputs. To address this, we propose a framework, Language Models Augmented with Long-Term Memory (LongMem), which enables LLMs to memorize long history. We design a novel decoupled network architecture with the original backbone LLM frozen as a memory encoder and an adaptive residual side-network as a memory retriever and reader. Such a decoupled memory design can easily cache and update long-term past contexts for memory retrieval without suffering from memory staleness. Enhanced with memory-augmented adaptation training, LongMem can thus memorize long past context and use long-term memory for language modeling. The proposed memory retrieval module can handle unlimited-length context in its memory bank to benefit various downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k tokens and thus cache many-shot extra demonstration examples as long-form memory for in-context learning. Experiments show that our method outperforms strong long-context models on ChapterBreak, a challenging long-context modeling benchmark, and achieves remarkable improvements on memory-augmented in-context learning over LLMs. The results demonstrate that the proposed method is effective in helping language models to memorize and utilize long-form contents. Our code is open-sourced at https://aka.ms/LongMem.

Aumentare i Modelli Linguistici con Memoria a Lungo Termine

Augmenting Language Models with Long-Term Memory

Abstract

Support