Het uitbreiden van taalmodelen met langetermijngeheugen
Augmenting Language Models with Long-Term Memory
June 12, 2023
Auteurs: Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng Gao, Furu Wei
cs.AI
Samenvatting
Bestaande grote taalmodellen (LLMs) kunnen alleen vaste invoergroottes verwerken vanwege de invoerlengtebeperking, waardoor ze geen gebruik kunnen maken van rijke langetermijncontextinformatie uit eerdere invoeren. Om dit aan te pakken, stellen we een framework voor, Language Models Augmented with Long-Term Memory (LongMem), dat LLMs in staat stelt om lange geschiedenis te onthouden. We ontwerpen een nieuw ontkoppeld netwerkarchitectuur waarbij het oorspronkelijke backbone LLM bevroren blijft als een geheugencoder en een adaptief residu-zijnetwerk fungeert als een geheugenophaler en -lezer. Zo'n ontkoppeld geheugenontwerp kan eenvoudig langetermijncontexten uit het verleden cachen en bijwerken voor geheugenophaling zonder last te hebben van verouderd geheugen. Versterkt met geheugen-augmented aanpassingstraining kan LongMem dus lange contexten uit het verleden onthouden en langetermijngeheugen gebruiken voor taalmodellering. De voorgestelde geheugenophalingsmodule kan contexten van onbeperkte lengte in zijn geheugenbank verwerken, wat ten goede komt aan verschillende downstreamtaken. Typisch kan LongMem het langetermijngeheugen uitbreiden tot 65k tokens en zo veel-voorbeeld extra demonstratievoorbeelden cachen als langetermijngeheugen voor in-context leren. Experimenten tonen aan dat onze methode sterke lang-contextmodellen overtreft op ChapterBreak, een uitdagende lang-contextmodelleringsbenchmark, en opmerkelijke verbeteringen bereikt op geheugen-augmented in-context leren ten opzichte van LLMs. De resultaten tonen aan dat de voorgestelde methode effectief is in het helpen van taalmodellen om langetermijninhoud te onthouden en te gebruiken. Onze code is open-source beschikbaar op https://aka.ms/LongMem.
English
Existing large language models (LLMs) can only afford fix-sized inputs due to
the input length limit, preventing them from utilizing rich long-context
information from past inputs. To address this, we propose a framework, Language
Models Augmented with Long-Term Memory (LongMem), which enables LLMs to
memorize long history. We design a novel decoupled network architecture with
the original backbone LLM frozen as a memory encoder and an adaptive residual
side-network as a memory retriever and reader. Such a decoupled memory design
can easily cache and update long-term past contexts for memory retrieval
without suffering from memory staleness. Enhanced with memory-augmented
adaptation training, LongMem can thus memorize long past context and use
long-term memory for language modeling. The proposed memory retrieval module
can handle unlimited-length context in its memory bank to benefit various
downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k
tokens and thus cache many-shot extra demonstration examples as long-form
memory for in-context learning. Experiments show that our method outperforms
strong long-context models on ChapterBreak, a challenging long-context modeling
benchmark, and achieves remarkable improvements on memory-augmented in-context
learning over LLMs. The results demonstrate that the proposed method is
effective in helping language models to memorize and utilize long-form
contents. Our code is open-sourced at https://aka.ms/LongMem.