Réseaux d'Hippocampe Artificiel pour une Modélisation Efficace des Contexte Longs
Artificial Hippocampus Networks for Efficient Long-Context Modeling
October 8, 2025
papers.authors: Yunhao Fang, Weihao Yu, Shu Zhong, Qinghao Ye, Xuehan Xiong, Lai Wei
cs.AI
papers.abstract
La modélisation de séquences longues est confrontée à un compromis fondamental entre l'efficacité de la mémoire de taille fixe et compressée dans les modèles de type RNN (réseaux de neurones récurrents) et la fidélité de la mémoire croissante sans perte dans les Transformers basés sur l'attention. Inspirés par le modèle multi-mémoire en sciences cognitives, nous introduisons un cadre de mémoire pour les réseaux de neurones artificiels. Notre méthode maintient une fenêtre glissante du cache KV du Transformer comme mémoire à court terme sans perte, tandis qu'un module apprenable, appelé Réseau Hippocampe Artificiel (AHN), compresse de manière récurrente les informations hors fenêtre en une mémoire à long terme compacte de taille fixe. Pour valider ce cadre, nous instancions les AHN en utilisant des architectures modernes de type RNN, notamment Mamba2, DeltaNet et Gated DeltaNet. Des expériences approfondies sur les benchmarks de contexte long LV-Eval et InfiniteBench démontrent que les modèles augmentés par AHN surpassent systématiquement les baselines à fenêtre glissante et atteignent des performances comparables, voire supérieures, à celles des modèles à attention complète, tout en réduisant substantiellement les exigences computationnelles et de mémoire. Par exemple, l'ajout d'AHN au modèle Qwen2.5-3B-Instruct réduit les FLOPs d'inférence de 40,5 % et le cache mémoire de 74,0 %, tout en améliorant son score moyen sur LV-Eval (longueur de séquence de 128k) de 4,41 à 5,88. Le code est disponible à l'adresse suivante : https://github.com/ByteDance-Seed/AHN.
English
Long-sequence modeling faces a fundamental trade-off between the efficiency
of compressive fixed-size memory in RNN-like models and the fidelity of
lossless growing memory in attention-based Transformers. Inspired by the
Multi-Store Model in cognitive science, we introduce a memory framework of
artificial neural networks. Our method maintains a sliding window of the
Transformer's KV cache as lossless short-term memory, while a learnable module
termed Artificial Hippocampus Network (AHN) recurrently compresses
out-of-window information into a fixed-size compact long-term memory. To
validate this framework, we instantiate AHNs using modern RNN-like
architectures, including Mamba2, DeltaNet, and Gated DeltaNet. Extensive
experiments on long-context benchmarks LV-Eval and InfiniteBench demonstrate
that AHN-augmented models consistently outperform sliding window baselines and
achieve performance comparable or even superior to full-attention models, while
substantially reducing computational and memory requirements. For instance,
augmenting the Qwen2.5-3B-Instruct with AHNs reduces inference FLOPs by 40.5%
and memory cache by 74.0%, while improving its average score on LV-Eval (128k
sequence length) from 4.41 to 5.88. Code is available at:
https://github.com/ByteDance-Seed/AHN.