δ-mem : Mémoire en ligne efficace pour grands modèles de langage

Résumé

Les grands modèles de langage ont de plus en plus besoin d'accumuler et de réutiliser des informations historiques dans les assistants à long terme et les systèmes agents. Étendre simplement la fenêtre de contexte est coûteux et ne garantit souvent pas une utilisation efficace du contexte. Nous proposons δ-mem, un mécanisme de mémoire léger qui enrichit un backbone d'attention complète gelé avec un état en ligne compact de mémoire associative. δ-mem compresse les informations passées en une matrice d'état de taille fixe mise à jour par apprentissage par règle delta, et utilise sa lecture pour générer des corrections de bas rang sur le calcul d'attention du backbone pendant la génération. Avec un état de mémoire en ligne de seulement 8×8, δ-mem améliore le score moyen à 1,10 fois celui du backbone gelé et à 1,15 fois celui de la baseline mémoire non δ-mem la plus forte. Il obtient des gains plus importants sur les benchmarks à forte charge mémoire, atteignant 1,31 fois sur MemoryAgentBench et 1,20 fois sur LoCoMo, tout en préservant largement les capacités générales. Ces résultats montrent qu'une mémoire efficace peut être réalisée via un état en ligne compact directement couplé au calcul d'attention, sans fine-tuning complet, remplacement du backbone, ni extension explicite du contexte.

English

Large language models increasingly need to accumulate and reuse historical information in long-term assistants and agent systems. Simply expanding the context window is costly and often fails to ensure effective context utilization. We propose δ-mem, a lightweight memory mechanism that augments a frozen full-attention backbone with a compact online state of associative memory. δ-mem compresses past information into a fixed-size state matrix updated by delta-rule learning, and uses its readout to generate low-rank corrections to the backbone's attention computation during generation. With only an 8times8 online memory state, δ-mem improves the average score to 1.10times that of the frozen backbone and 1.15times that of the strongest non-δ-mem memory baseline. It achieves larger gains on memory-heavy benchmarks, reaching 1.31times on MemoryAgentBench and 1.20times on LoCoMo, while largely preserving general capabilities. These results show that effective memory can be realized through a compact online state directly coupled with attention computation, without full fine-tuning, backbone replacement, or explicit context extension.

δ-mem : Mémoire en ligne efficace pour grands modèles de langage

δ-mem: Efficient Online Memory for Large Language Models

Résumé

Support