ChatPaper.aiChatPaper

Künstliche Hippocampus-Netzwerke für effiziente Modellierung langer Kontexte

Artificial Hippocampus Networks for Efficient Long-Context Modeling

October 8, 2025
papers.authors: Yunhao Fang, Weihao Yu, Shu Zhong, Qinghao Ye, Xuehan Xiong, Lai Wei
cs.AI

papers.abstract

Die Modellierung langer Sequenzen steht vor einem grundlegenden Zielkonflikt zwischen der Effizienz von komprimiertem, festgroßem Speicher in RNN-ähnlichen Modellen und der Genauigkeit von verlustfreiem, wachsendem Speicher in auf Aufmerksamkeit basierenden Transformern. Inspiriert vom Multi-Store-Modell der Kognitionswissenschaft, führen wir ein Speicherframework für künstliche neuronale Netze ein. Unser Ansatz behält ein gleitendes Fenster des KV-Caches des Transformers als verlustfreien Kurzzeitspeicher bei, während ein lernbares Modul, genannt Artificial Hippocampus Network (AHN), wiederkehrend Informationen außerhalb des Fensters in einen festgroßen, kompakten Langzeitspeicher komprimiert. Um dieses Framework zu validieren, instanziieren wir AHNs mit modernen RNN-ähnlichen Architekturen, darunter Mamba2, DeltaNet und Gated DeltaNet. Umfangreiche Experimente auf den Langkontext-Benchmarks LV-Eval und InfiniteBench zeigen, dass AHN-erweiterte Modelle durchweg die gleitenden Fenster-Baselines übertreffen und eine Leistung erzielen, die vergleichbar oder sogar besser ist als die von Voll-Aufmerksamkeitsmodellen, während sie gleichzeitig den Rechen- und Speicherbedarf erheblich reduzieren. Beispielsweise reduziert die Erweiterung von Qwen2.5-3B-Instruct mit AHNs die Inferenz-FLOPs um 40,5 % und den Speichercache um 74,0 %, während die durchschnittliche Punktzahl auf LV-Eval (Sequenzlänge 128k) von 4,41 auf 5,88 verbessert wird. Der Code ist verfügbar unter: https://github.com/ByteDance-Seed/AHN.
English
Long-sequence modeling faces a fundamental trade-off between the efficiency of compressive fixed-size memory in RNN-like models and the fidelity of lossless growing memory in attention-based Transformers. Inspired by the Multi-Store Model in cognitive science, we introduce a memory framework of artificial neural networks. Our method maintains a sliding window of the Transformer's KV cache as lossless short-term memory, while a learnable module termed Artificial Hippocampus Network (AHN) recurrently compresses out-of-window information into a fixed-size compact long-term memory. To validate this framework, we instantiate AHNs using modern RNN-like architectures, including Mamba2, DeltaNet, and Gated DeltaNet. Extensive experiments on long-context benchmarks LV-Eval and InfiniteBench demonstrate that AHN-augmented models consistently outperform sliding window baselines and achieve performance comparable or even superior to full-attention models, while substantially reducing computational and memory requirements. For instance, augmenting the Qwen2.5-3B-Instruct with AHNs reduces inference FLOPs by 40.5% and memory cache by 74.0%, while improving its average score on LV-Eval (128k sequence length) from 4.41 to 5.88. Code is available at: https://github.com/ByteDance-Seed/AHN.
PDF222October 9, 2025