δ-mem: Effizientes Online-Gedächtnis für Große Sprachmodelle
δ-mem: Efficient Online Memory for Large Language Models
May 12, 2026
Autoren: Jingdi Lei, Di Zhang, Junxian Li, Weida Wang, Kaixuan Fan, Xiang Liu, Qihan Liu, Xiaoteng Ma, Baian Chen, Soujanya Poria
cs.AI
Zusammenfassung
Große Sprachmodelle müssen zunehmend historische Informationen in langfristigen Assistenzsystemen und Agentensystemen akkumulieren und wiederverwenden. Eine einfache Erweiterung des Kontextfensters ist kostspielig und gewährleistet oft keine effektive Nutzung des Kontexts. Wir schlagen δ-mem vor, einen leichtgewichtigen Gedächtnismechanismus, der einen eingefrorenen Vollaufmerksamkeits-Backbone mit einem kompakten Online-Zustand assoziativen Gedächtnisses anreichert. δ-mem komprimiert vergangene Informationen in eine Zustandsmatrix fester Größe, die durch Delta-Regel-Lernen aktualisiert wird, und nutzt deren Auslesen, um während der Generierung niedrigrangige Korrekturen an der Aufmerksamkeitsberechnung des Backbones zu erzeugen. Mit nur einem 8×8 Online-Gedächtniszustand verbessert δ-mem den durchschnittlichen Score auf das 1,10-fache des eingefrorenen Backbones und auf das 1,15-fache der stärksten nicht-δ-mem Gedächtnisbasislinie. Es erzielt größere Gewinne bei gedächtnisintensiven Benchmarks und erreicht das 1,31-fache auf MemoryAgentBench und das 1,20-fache auf LoCoMo, während allgemeine Fähigkeiten weitgehend erhalten bleiben. Diese Ergebnisse zeigen, dass effektives Gedächtnis durch einen kompakten Online-Zustand realisiert werden kann, der direkt mit der Aufmerksamkeitsberechnung gekoppelt ist, ohne vollständiges Fine-Tuning, Backbone-Austausch oder explizite Kontexterweiterung.
English
Large language models increasingly need to accumulate and reuse historical information in long-term assistants and agent systems. Simply expanding the context window is costly and often fails to ensure effective context utilization. We propose δ-mem, a lightweight memory mechanism that augments a frozen full-attention backbone with a compact online state of associative memory. δ-mem compresses past information into a fixed-size state matrix updated by delta-rule learning, and uses its readout to generate low-rank corrections to the backbone's attention computation during generation. With only an 8times8 online memory state, δ-mem improves the average score to 1.10times that of the frozen backbone and 1.15times that of the strongest non-δ-mem memory baseline. It achieves larger gains on memory-heavy benchmarks, reaching 1.31times on MemoryAgentBench and 1.20times on LoCoMo, while largely preserving general capabilities. These results show that effective memory can be realized through a compact online state directly coupled with attention computation, without full fine-tuning, backbone replacement, or explicit context extension.