Amélioration des modèles de langage par l'ajout d'une mémoire à long terme

Résumé

Les grands modèles de langage (LLMs) existants ne peuvent traiter que des entrées de taille fixe en raison de la limite de longueur des entrées, ce qui les empêche d'exploiter des informations contextuelles riches provenant d'entrées passées. Pour remédier à cela, nous proposons un cadre, Language Models Augmented with Long-Term Memory (LongMem), qui permet aux LLMs de mémoriser un historique long. Nous concevons une architecture de réseau découplée innovante, avec le modèle de base original figé en tant qu'encodeur de mémoire et un réseau latéral résiduel adaptatif en tant que récupérateur et lecteur de mémoire. Une telle conception de mémoire découplée permet de mettre en cache et de mettre à jour facilement des contextes passés à long terme pour la récupération de mémoire sans souffrir de l'obsolescence de la mémoire. Renforcé par un entraînement d'adaptation augmenté par la mémoire, LongMem peut ainsi mémoriser un contexte passé long et utiliser une mémoire à long terme pour la modélisation du langage. Le module de récupération de mémoire proposé peut gérer un contexte de longueur illimitée dans sa banque de mémoire pour bénéficier à diverses tâches en aval. Typiquement, LongMem peut étendre la mémoire à long terme à 65 000 tokens et ainsi mettre en cache de nombreux exemples de démonstration supplémentaires en tant que mémoire à long terme pour l'apprentissage en contexte. Les expériences montrent que notre méthode surpasse les modèles à contexte long sur ChapterBreak, un benchmark exigeant de modélisation de contexte long, et réalise des améliorations remarquables sur l'apprentissage en contexte augmenté par la mémoire par rapport aux LLMs. Les résultats démontrent que la méthode proposée est efficace pour aider les modèles de langage à mémoriser et à utiliser des contenus à long terme. Notre code est open-source à l'adresse https://aka.ms/LongMem.

English

Existing large language models (LLMs) can only afford fix-sized inputs due to the input length limit, preventing them from utilizing rich long-context information from past inputs. To address this, we propose a framework, Language Models Augmented with Long-Term Memory (LongMem), which enables LLMs to memorize long history. We design a novel decoupled network architecture with the original backbone LLM frozen as a memory encoder and an adaptive residual side-network as a memory retriever and reader. Such a decoupled memory design can easily cache and update long-term past contexts for memory retrieval without suffering from memory staleness. Enhanced with memory-augmented adaptation training, LongMem can thus memorize long past context and use long-term memory for language modeling. The proposed memory retrieval module can handle unlimited-length context in its memory bank to benefit various downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k tokens and thus cache many-shot extra demonstration examples as long-form memory for in-context learning. Experiments show that our method outperforms strong long-context models on ChapterBreak, a challenging long-context modeling benchmark, and achieves remarkable improvements on memory-augmented in-context learning over LLMs. The results demonstrate that the proposed method is effective in helping language models to memorize and utilize long-form contents. Our code is open-sourced at https://aka.ms/LongMem.

Amélioration des modèles de langage par l'ajout d'une mémoire à long terme

Augmenting Language Models with Long-Term Memory

Résumé

Support