Aumentare i Modelli Linguistici con Memoria a Lungo Termine
Augmenting Language Models with Long-Term Memory
June 12, 2023
Autori: Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng Gao, Furu Wei
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) esistenti possono gestire solo input di dimensioni fisse a causa del limite di lunghezza dell'input, impedendo loro di sfruttare informazioni contestuali ricche e di lungo periodo provenienti da input precedenti. Per affrontare questo problema, proponiamo un framework, denominato Language Models Augmented with Long-Term Memory (LongMem), che consente agli LLM di memorizzare una storia lunga. Progettiamo un'architettura di rete disaccoppiata innovativa, in cui il modello LLM originale viene congelato come codificatore di memoria e una rete laterale residua adattativa funge da recuperatore e lettore di memoria. Tale design di memoria disaccoppiata permette di memorizzare e aggiornare facilmente contesti passati di lungo periodo per il recupero della memoria, senza incorrere in problemi di obsolescenza della memoria. Potenziato con un addestramento adattativo arricchito dalla memoria, LongMem può quindi memorizzare contesti passati lunghi e utilizzare la memoria a lungo termine per la modellazione del linguaggio. Il modulo di recupero della memoria proposto è in grado di gestire contesti di lunghezza illimitata nel proprio archivio di memoria, apportando benefici a vari task downstream. In particolare, LongMem può ampliare la memoria a lungo termine fino a 65k token, consentendo così di memorizzare esempi dimostrativi extra come memoria a lungo termine per l'apprendimento in contesto. Gli esperimenti dimostrano che il nostro metodo supera modelli forti di contesto lungo su ChapterBreak, un benchmark impegnativo per la modellazione di contesti lunghi, e ottiene miglioramenti significativi nell'apprendimento in contesto arricchito dalla memoria rispetto agli LLM. I risultati dimostrano che il metodo proposto è efficace nell'aiutare i modelli linguistici a memorizzare e utilizzare contenuti di lungo periodo. Il nostro codice è open-source all'indirizzo https://aka.ms/LongMem.
English
Existing large language models (LLMs) can only afford fix-sized inputs due to
the input length limit, preventing them from utilizing rich long-context
information from past inputs. To address this, we propose a framework, Language
Models Augmented with Long-Term Memory (LongMem), which enables LLMs to
memorize long history. We design a novel decoupled network architecture with
the original backbone LLM frozen as a memory encoder and an adaptive residual
side-network as a memory retriever and reader. Such a decoupled memory design
can easily cache and update long-term past contexts for memory retrieval
without suffering from memory staleness. Enhanced with memory-augmented
adaptation training, LongMem can thus memorize long past context and use
long-term memory for language modeling. The proposed memory retrieval module
can handle unlimited-length context in its memory bank to benefit various
downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k
tokens and thus cache many-shot extra demonstration examples as long-form
memory for in-context learning. Experiments show that our method outperforms
strong long-context models on ChapterBreak, a challenging long-context modeling
benchmark, and achieves remarkable improvements on memory-augmented in-context
learning over LLMs. The results demonstrate that the proposed method is
effective in helping language models to memorize and utilize long-form
contents. Our code is open-sourced at https://aka.ms/LongMem.