Erweiterung von Sprachmodellen mit Langzeitgedächtnis

Zusammenfassung

Bestehende große Sprachmodelle (LLMs) können aufgrund der Eingabelängenbegrenzung nur Eingaben fester Größe verarbeiten, was sie daran hindert, umfangreiche langfristige Kontextinformationen aus vergangenen Eingaben zu nutzen. Um dies zu beheben, schlagen wir ein Framework vor, Language Models Augmented with Long-Term Memory (LongMem), das es LLMs ermöglicht, lange Verläufe zu speichern. Wir entwerfen eine neuartige, entkoppelte Netzwerkarchitektur, bei der das ursprüngliche Backbone-LLM als Gedächtnisencoder eingefroren bleibt und ein adaptives Restseitennetzwerk als Gedächtnisabrufer und -leser fungiert. Ein solches entkoppeltes Gedächtnisdesign kann langfristige vergangene Kontexte leicht zwischenspeichern und aktualisieren, ohne unter Gedächtnisveraltungen zu leiden. Durch eine mit Gedächtnisanreicherung versehene Anpassungsschulung kann LongMem somit lange vergangene Kontexte speichern und langfristiges Gedächtnis für die Sprachmodellierung nutzen. Das vorgeschlagene Gedächtnisabrufmodul kann unbegrenzt lange Kontexte in seiner Gedächtnisbank verarbeiten, was verschiedenen nachgelagerten Aufgaben zugutekommt. Typischerweise kann LongMem das Langzeitgedächtnis auf 65k Token erweitern und somit viele zusätzliche Demonstrationsbeispiele als Langzeitgedächtnis für In-Context-Learning zwischenspeichern. Experimente zeigen, dass unsere Methode starke Langzeitkontextmodelle auf ChapterBreak, einem anspruchsvollen Benchmark für die Langzeitkontextmodellierung, übertrifft und bemerkenswerte Verbesserungen beim gedächtnisangereicherten In-Context-Learning gegenüber LLMs erzielt. Die Ergebnisse zeigen, dass die vorgeschlagene Methode effektiv dabei hilft, Sprachmodelle darin zu unterstützen, langfristige Inhalte zu speichern und zu nutzen. Unser Code ist unter https://aka.ms/LongMem quelloffen verfügbar.

English

Existing large language models (LLMs) can only afford fix-sized inputs due to the input length limit, preventing them from utilizing rich long-context information from past inputs. To address this, we propose a framework, Language Models Augmented with Long-Term Memory (LongMem), which enables LLMs to memorize long history. We design a novel decoupled network architecture with the original backbone LLM frozen as a memory encoder and an adaptive residual side-network as a memory retriever and reader. Such a decoupled memory design can easily cache and update long-term past contexts for memory retrieval without suffering from memory staleness. Enhanced with memory-augmented adaptation training, LongMem can thus memorize long past context and use long-term memory for language modeling. The proposed memory retrieval module can handle unlimited-length context in its memory bank to benefit various downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k tokens and thus cache many-shot extra demonstration examples as long-form memory for in-context learning. Experiments show that our method outperforms strong long-context models on ChapterBreak, a challenging long-context modeling benchmark, and achieves remarkable improvements on memory-augmented in-context learning over LLMs. The results demonstrate that the proposed method is effective in helping language models to memorize and utilize long-form contents. Our code is open-sourced at https://aka.ms/LongMem.

Erweiterung von Sprachmodellen mit Langzeitgedächtnis

Augmenting Language Models with Long-Term Memory

Zusammenfassung

Support