Kunstmatige Hippocampus Netwerken voor Efficiënte Modellering van Lange Contexten
Artificial Hippocampus Networks for Efficient Long-Context Modeling
October 8, 2025
Auteurs: Yunhao Fang, Weihao Yu, Shu Zhong, Qinghao Ye, Xuehan Xiong, Lai Wei
cs.AI
Samenvatting
Het modelleren van lange sequenties staat voor een fundamentele afweging tussen de efficiëntie van compressief vastgelegd geheugen in RNN-achtige modellen en de nauwkeurigheid van verliesvrij groeiend geheugen in attention-gebaseerde Transformers. Geïnspireerd door het Multi-Store Model uit de cognitieve wetenschap, introduceren we een geheugenframework voor kunstmatige neurale netwerken. Onze methode behoudt een schuifvenster van de KV-cache van de Transformer als verliesvrij kortetermijngeheugen, terwijl een leerbare module, genaamd het Artificial Hippocampus Network (AHN), informatie buiten het venster recurrent comprimeert naar een vastgelegd compact langetermijngeheugen. Om dit framework te valideren, implementeren we AHN's met moderne RNN-achtige architecturen, waaronder Mamba2, DeltaNet en Gated DeltaNet. Uitgebreide experimenten op lange-context benchmarks LV-Eval en InfiniteBench tonen aan dat AHN-augmented modellen consistent beter presteren dan schuifvenster-baselines en prestaties behalen die vergelijkbaar of zelfs superieur zijn aan volledige attention-modellen, terwijl ze de reken- en geheugenvereisten aanzienlijk verminderen. Zo vermindert het toevoegen van AHN's aan Qwen2.5-3B-Instruct de inferentie-FLOPs met 40,5% en de geheugencache met 74,0%, terwijl de gemiddelde score op LV-Eval (128k sequentielengte) verbetert van 4,41 naar 5,88. Code is beschikbaar op: https://github.com/ByteDance-Seed/AHN.
English
Long-sequence modeling faces a fundamental trade-off between the efficiency
of compressive fixed-size memory in RNN-like models and the fidelity of
lossless growing memory in attention-based Transformers. Inspired by the
Multi-Store Model in cognitive science, we introduce a memory framework of
artificial neural networks. Our method maintains a sliding window of the
Transformer's KV cache as lossless short-term memory, while a learnable module
termed Artificial Hippocampus Network (AHN) recurrently compresses
out-of-window information into a fixed-size compact long-term memory. To
validate this framework, we instantiate AHNs using modern RNN-like
architectures, including Mamba2, DeltaNet, and Gated DeltaNet. Extensive
experiments on long-context benchmarks LV-Eval and InfiniteBench demonstrate
that AHN-augmented models consistently outperform sliding window baselines and
achieve performance comparable or even superior to full-attention models, while
substantially reducing computational and memory requirements. For instance,
augmenting the Qwen2.5-3B-Instruct with AHNs reduces inference FLOPs by 40.5%
and memory cache by 74.0%, while improving its average score on LV-Eval (128k
sequence length) from 4.41 to 5.88. Code is available at:
https://github.com/ByteDance-Seed/AHN.