Erweiterung von Sprachmodellen mit Langzeitgedächtnis
Augmenting Language Models with Long-Term Memory
June 12, 2023
Autoren: Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng Gao, Furu Wei
cs.AI
Zusammenfassung
Bestehende große Sprachmodelle (LLMs) können aufgrund der Eingabelängenbegrenzung nur Eingaben fester Größe verarbeiten, was sie daran hindert, umfangreiche langfristige Kontextinformationen aus vergangenen Eingaben zu nutzen. Um dies zu beheben, schlagen wir ein Framework vor, Language Models Augmented with Long-Term Memory (LongMem), das es LLMs ermöglicht, lange Verläufe zu speichern. Wir entwerfen eine neuartige, entkoppelte Netzwerkarchitektur, bei der das ursprüngliche Backbone-LLM als Gedächtnisencoder eingefroren bleibt und ein adaptives Restseitennetzwerk als Gedächtnisabrufer und -leser fungiert. Ein solches entkoppeltes Gedächtnisdesign kann langfristige vergangene Kontexte leicht zwischenspeichern und aktualisieren, ohne unter Gedächtnisveraltungen zu leiden. Durch eine mit Gedächtnisanreicherung versehene Anpassungsschulung kann LongMem somit lange vergangene Kontexte speichern und langfristiges Gedächtnis für die Sprachmodellierung nutzen. Das vorgeschlagene Gedächtnisabrufmodul kann unbegrenzt lange Kontexte in seiner Gedächtnisbank verarbeiten, was verschiedenen nachgelagerten Aufgaben zugutekommt. Typischerweise kann LongMem das Langzeitgedächtnis auf 65k Token erweitern und somit viele zusätzliche Demonstrationsbeispiele als Langzeitgedächtnis für In-Context-Learning zwischenspeichern. Experimente zeigen, dass unsere Methode starke Langzeitkontextmodelle auf ChapterBreak, einem anspruchsvollen Benchmark für die Langzeitkontextmodellierung, übertrifft und bemerkenswerte Verbesserungen beim gedächtnisangereicherten In-Context-Learning gegenüber LLMs erzielt. Die Ergebnisse zeigen, dass die vorgeschlagene Methode effektiv dabei hilft, Sprachmodelle darin zu unterstützen, langfristige Inhalte zu speichern und zu nutzen. Unser Code ist unter https://aka.ms/LongMem quelloffen verfügbar.
English
Existing large language models (LLMs) can only afford fix-sized inputs due to
the input length limit, preventing them from utilizing rich long-context
information from past inputs. To address this, we propose a framework, Language
Models Augmented with Long-Term Memory (LongMem), which enables LLMs to
memorize long history. We design a novel decoupled network architecture with
the original backbone LLM frozen as a memory encoder and an adaptive residual
side-network as a memory retriever and reader. Such a decoupled memory design
can easily cache and update long-term past contexts for memory retrieval
without suffering from memory staleness. Enhanced with memory-augmented
adaptation training, LongMem can thus memorize long past context and use
long-term memory for language modeling. The proposed memory retrieval module
can handle unlimited-length context in its memory bank to benefit various
downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k
tokens and thus cache many-shot extra demonstration examples as long-form
memory for in-context learning. Experiments show that our method outperforms
strong long-context models on ChapterBreak, a challenging long-context modeling
benchmark, and achieves remarkable improvements on memory-augmented in-context
learning over LLMs. The results demonstrate that the proposed method is
effective in helping language models to memorize and utilize long-form
contents. Our code is open-sourced at https://aka.ms/LongMem.