Redes de Hipocampo Artificial para Modelagem Eficiente de Contextos Longos
Artificial Hippocampus Networks for Efficient Long-Context Modeling
October 8, 2025
Autores: Yunhao Fang, Weihao Yu, Shu Zhong, Qinghao Ye, Xuehan Xiong, Lai Wei
cs.AI
Resumo
A modelagem de sequências longas enfrenta uma compensação fundamental entre a eficiência da memória de tamanho fixo e compressiva em modelos semelhantes a RNNs e a fidelidade da memória crescente e sem perdas em Transformers baseados em atenção. Inspirados pelo Modelo de Armazenamento Múltiplo da ciência cognitiva, introduzimos um framework de memória para redes neurais artificiais. Nosso método mantém uma janela deslizante do cache KV do Transformer como memória de curto prazo sem perdas, enquanto um módulo aprendível, denominado Rede Hipocampo Artificial (AHN), comprime recursivamente informações fora da janela em uma memória de longo prazo compacta e de tamanho fixo. Para validar esse framework, instanciamos AHNs usando arquiteturas modernas semelhantes a RNNs, incluindo Mamba2, DeltaNet e Gated DeltaNet. Experimentos extensivos em benchmarks de contexto longo, como LV-Eval e InfiniteBench, demonstram que modelos aumentados com AHNs superam consistentemente as linhas de base de janela deslizante e alcançam desempenho comparável ou até superior aos modelos de atenção completa, enquanto reduzem substancialmente os requisitos computacionais e de memória. Por exemplo, aumentar o Qwen2.5-3B-Instruct com AHNs reduz os FLOPs de inferência em 40,5% e o cache de memória em 74,0%, enquanto melhora sua pontuação média no LV-Eval (comprimento de sequência de 128k) de 4,41 para 5,88. O código está disponível em: https://github.com/ByteDance-Seed/AHN.
English
Long-sequence modeling faces a fundamental trade-off between the efficiency
of compressive fixed-size memory in RNN-like models and the fidelity of
lossless growing memory in attention-based Transformers. Inspired by the
Multi-Store Model in cognitive science, we introduce a memory framework of
artificial neural networks. Our method maintains a sliding window of the
Transformer's KV cache as lossless short-term memory, while a learnable module
termed Artificial Hippocampus Network (AHN) recurrently compresses
out-of-window information into a fixed-size compact long-term memory. To
validate this framework, we instantiate AHNs using modern RNN-like
architectures, including Mamba2, DeltaNet, and Gated DeltaNet. Extensive
experiments on long-context benchmarks LV-Eval and InfiniteBench demonstrate
that AHN-augmented models consistently outperform sliding window baselines and
achieve performance comparable or even superior to full-attention models, while
substantially reducing computational and memory requirements. For instance,
augmenting the Qwen2.5-3B-Instruct with AHNs reduces inference FLOPs by 40.5%
and memory cache by 74.0%, while improving its average score on LV-Eval (128k
sequence length) from 4.41 to 5.88. Code is available at:
https://github.com/ByteDance-Seed/AHN.