Kunstmatige Hippocampus Netwerken voor Efficiënte Modellering van Lange Contexten

Samenvatting

Het modelleren van lange sequenties staat voor een fundamentele afweging tussen de efficiëntie van compressief vastgelegd geheugen in RNN-achtige modellen en de nauwkeurigheid van verliesvrij groeiend geheugen in attention-gebaseerde Transformers. Geïnspireerd door het Multi-Store Model uit de cognitieve wetenschap, introduceren we een geheugenframework voor kunstmatige neurale netwerken. Onze methode behoudt een schuifvenster van de KV-cache van de Transformer als verliesvrij kortetermijngeheugen, terwijl een leerbare module, genaamd het Artificial Hippocampus Network (AHN), informatie buiten het venster recurrent comprimeert naar een vastgelegd compact langetermijngeheugen. Om dit framework te valideren, implementeren we AHN's met moderne RNN-achtige architecturen, waaronder Mamba2, DeltaNet en Gated DeltaNet. Uitgebreide experimenten op lange-context benchmarks LV-Eval en InfiniteBench tonen aan dat AHN-augmented modellen consistent beter presteren dan schuifvenster-baselines en prestaties behalen die vergelijkbaar of zelfs superieur zijn aan volledige attention-modellen, terwijl ze de reken- en geheugenvereisten aanzienlijk verminderen. Zo vermindert het toevoegen van AHN's aan Qwen2.5-3B-Instruct de inferentie-FLOPs met 40,5% en de geheugencache met 74,0%, terwijl de gemiddelde score op LV-Eval (128k sequentielengte) verbetert van 4,41 naar 5,88. Code is beschikbaar op: https://github.com/ByteDance-Seed/AHN.

English

Long-sequence modeling faces a fundamental trade-off between the efficiency of compressive fixed-size memory in RNN-like models and the fidelity of lossless growing memory in attention-based Transformers. Inspired by the Multi-Store Model in cognitive science, we introduce a memory framework of artificial neural networks. Our method maintains a sliding window of the Transformer's KV cache as lossless short-term memory, while a learnable module termed Artificial Hippocampus Network (AHN) recurrently compresses out-of-window information into a fixed-size compact long-term memory. To validate this framework, we instantiate AHNs using modern RNN-like architectures, including Mamba2, DeltaNet, and Gated DeltaNet. Extensive experiments on long-context benchmarks LV-Eval and InfiniteBench demonstrate that AHN-augmented models consistently outperform sliding window baselines and achieve performance comparable or even superior to full-attention models, while substantially reducing computational and memory requirements. For instance, augmenting the Qwen2.5-3B-Instruct with AHNs reduces inference FLOPs by 40.5% and memory cache by 74.0%, while improving its average score on LV-Eval (128k sequence length) from 4.41 to 5.88. Code is available at: https://github.com/ByteDance-Seed/AHN.

Kunstmatige Hippocampus Netwerken voor Efficiënte Modellering van Lange Contexten

Artificial Hippocampus Networks for Efficient Long-Context Modeling

Samenvatting

Support