Réseaux d'Hippocampe Artificiel pour une Modélisation Efficace des Contexte Longs

papers.abstract

La modélisation de séquences longues est confrontée à un compromis fondamental entre l'efficacité de la mémoire de taille fixe et compressée dans les modèles de type RNN (réseaux de neurones récurrents) et la fidélité de la mémoire croissante sans perte dans les Transformers basés sur l'attention. Inspirés par le modèle multi-mémoire en sciences cognitives, nous introduisons un cadre de mémoire pour les réseaux de neurones artificiels. Notre méthode maintient une fenêtre glissante du cache KV du Transformer comme mémoire à court terme sans perte, tandis qu'un module apprenable, appelé Réseau Hippocampe Artificiel (AHN), compresse de manière récurrente les informations hors fenêtre en une mémoire à long terme compacte de taille fixe. Pour valider ce cadre, nous instancions les AHN en utilisant des architectures modernes de type RNN, notamment Mamba2, DeltaNet et Gated DeltaNet. Des expériences approfondies sur les benchmarks de contexte long LV-Eval et InfiniteBench démontrent que les modèles augmentés par AHN surpassent systématiquement les baselines à fenêtre glissante et atteignent des performances comparables, voire supérieures, à celles des modèles à attention complète, tout en réduisant substantiellement les exigences computationnelles et de mémoire. Par exemple, l'ajout d'AHN au modèle Qwen2.5-3B-Instruct réduit les FLOPs d'inférence de 40,5 % et le cache mémoire de 74,0 %, tout en améliorant son score moyen sur LV-Eval (longueur de séquence de 128k) de 4,41 à 5,88. Le code est disponible à l'adresse suivante : https://github.com/ByteDance-Seed/AHN.

English

Long-sequence modeling faces a fundamental trade-off between the efficiency of compressive fixed-size memory in RNN-like models and the fidelity of lossless growing memory in attention-based Transformers. Inspired by the Multi-Store Model in cognitive science, we introduce a memory framework of artificial neural networks. Our method maintains a sliding window of the Transformer's KV cache as lossless short-term memory, while a learnable module termed Artificial Hippocampus Network (AHN) recurrently compresses out-of-window information into a fixed-size compact long-term memory. To validate this framework, we instantiate AHNs using modern RNN-like architectures, including Mamba2, DeltaNet, and Gated DeltaNet. Extensive experiments on long-context benchmarks LV-Eval and InfiniteBench demonstrate that AHN-augmented models consistently outperform sliding window baselines and achieve performance comparable or even superior to full-attention models, while substantially reducing computational and memory requirements. For instance, augmenting the Qwen2.5-3B-Instruct with AHNs reduces inference FLOPs by 40.5% and memory cache by 74.0%, while improving its average score on LV-Eval (128k sequence length) from 4.41 to 5.88. Code is available at: https://github.com/ByteDance-Seed/AHN.

Réseaux d'Hippocampe Artificiel pour une Modélisation Efficace des Contexte Longs

Artificial Hippocampus Networks for Efficient Long-Context Modeling

papers.abstract

Support