Het uitbreiden van taalmodelen met langetermijngeheugen

Samenvatting

Bestaande grote taalmodellen (LLMs) kunnen alleen vaste invoergroottes verwerken vanwege de invoerlengtebeperking, waardoor ze geen gebruik kunnen maken van rijke langetermijncontextinformatie uit eerdere invoeren. Om dit aan te pakken, stellen we een framework voor, Language Models Augmented with Long-Term Memory (LongMem), dat LLMs in staat stelt om lange geschiedenis te onthouden. We ontwerpen een nieuw ontkoppeld netwerkarchitectuur waarbij het oorspronkelijke backbone LLM bevroren blijft als een geheugencoder en een adaptief residu-zijnetwerk fungeert als een geheugenophaler en -lezer. Zo'n ontkoppeld geheugenontwerp kan eenvoudig langetermijncontexten uit het verleden cachen en bijwerken voor geheugenophaling zonder last te hebben van verouderd geheugen. Versterkt met geheugen-augmented aanpassingstraining kan LongMem dus lange contexten uit het verleden onthouden en langetermijngeheugen gebruiken voor taalmodellering. De voorgestelde geheugenophalingsmodule kan contexten van onbeperkte lengte in zijn geheugenbank verwerken, wat ten goede komt aan verschillende downstreamtaken. Typisch kan LongMem het langetermijngeheugen uitbreiden tot 65k tokens en zo veel-voorbeeld extra demonstratievoorbeelden cachen als langetermijngeheugen voor in-context leren. Experimenten tonen aan dat onze methode sterke lang-contextmodellen overtreft op ChapterBreak, een uitdagende lang-contextmodelleringsbenchmark, en opmerkelijke verbeteringen bereikt op geheugen-augmented in-context leren ten opzichte van LLMs. De resultaten tonen aan dat de voorgestelde methode effectief is in het helpen van taalmodellen om langetermijninhoud te onthouden en te gebruiken. Onze code is open-source beschikbaar op https://aka.ms/LongMem.

English

Existing large language models (LLMs) can only afford fix-sized inputs due to the input length limit, preventing them from utilizing rich long-context information from past inputs. To address this, we propose a framework, Language Models Augmented with Long-Term Memory (LongMem), which enables LLMs to memorize long history. We design a novel decoupled network architecture with the original backbone LLM frozen as a memory encoder and an adaptive residual side-network as a memory retriever and reader. Such a decoupled memory design can easily cache and update long-term past contexts for memory retrieval without suffering from memory staleness. Enhanced with memory-augmented adaptation training, LongMem can thus memorize long past context and use long-term memory for language modeling. The proposed memory retrieval module can handle unlimited-length context in its memory bank to benefit various downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k tokens and thus cache many-shot extra demonstration examples as long-form memory for in-context learning. Experiments show that our method outperforms strong long-context models on ChapterBreak, a challenging long-context modeling benchmark, and achieves remarkable improvements on memory-augmented in-context learning over LLMs. The results demonstrate that the proposed method is effective in helping language models to memorize and utilize long-form contents. Our code is open-sourced at https://aka.ms/LongMem.

Het uitbreiden van taalmodelen met langetermijngeheugen

Augmenting Language Models with Long-Term Memory

Samenvatting

Support