Redes de Hipocampo Artificial para el Modelado Eficiente de Contextos Largos
Artificial Hippocampus Networks for Efficient Long-Context Modeling
October 8, 2025
Autores: Yunhao Fang, Weihao Yu, Shu Zhong, Qinghao Ye, Xuehan Xiong, Lai Wei
cs.AI
Resumen
El modelado de secuencias largas enfrenta una compensación fundamental entre la eficiencia de la memoria compresiva de tamaño fijo en modelos similares a RNN y la fidelidad de la memoria creciente sin pérdida en Transformers basados en atención. Inspirados por el Modelo de Almacenamiento Múltiple en la ciencia cognitiva, introducimos un marco de memoria para redes neuronales artificiales. Nuestro método mantiene una ventana deslizante de la caché KV del Transformer como memoria a corto plazo sin pérdida, mientras que un módulo aprendible denominado Red de Hipocampo Artificial (AHN, por sus siglas en inglés) comprime recurrentemente la información fuera de la ventana en una memoria a largo plazo compacta de tamaño fijo. Para validar este marco, instanciamos AHNs utilizando arquitecturas modernas similares a RNN, incluyendo Mamba2, DeltaNet y Gated DeltaNet. Experimentos extensos en los puntos de referencia de contexto largo LV-Eval e InfiniteBench demuestran que los modelos aumentados con AHN superan consistentemente las líneas base de ventana deslizante y logran un rendimiento comparable o incluso superior a los modelos de atención completa, mientras reducen sustancialmente los requisitos computacionales y de memoria. Por ejemplo, aumentar el Qwen2.5-3B-Instruct con AHNs reduce los FLOPs de inferencia en un 40.5% y la caché de memoria en un 74.0%, mientras mejora su puntuación promedio en LV-Eval (longitud de secuencia de 128k) de 4.41 a 5.88. El código está disponible en: https://github.com/ByteDance-Seed/AHN.
English
Long-sequence modeling faces a fundamental trade-off between the efficiency
of compressive fixed-size memory in RNN-like models and the fidelity of
lossless growing memory in attention-based Transformers. Inspired by the
Multi-Store Model in cognitive science, we introduce a memory framework of
artificial neural networks. Our method maintains a sliding window of the
Transformer's KV cache as lossless short-term memory, while a learnable module
termed Artificial Hippocampus Network (AHN) recurrently compresses
out-of-window information into a fixed-size compact long-term memory. To
validate this framework, we instantiate AHNs using modern RNN-like
architectures, including Mamba2, DeltaNet, and Gated DeltaNet. Extensive
experiments on long-context benchmarks LV-Eval and InfiniteBench demonstrate
that AHN-augmented models consistently outperform sliding window baselines and
achieve performance comparable or even superior to full-attention models, while
substantially reducing computational and memory requirements. For instance,
augmenting the Qwen2.5-3B-Instruct with AHNs reduces inference FLOPs by 40.5%
and memory cache by 74.0%, while improving its average score on LV-Eval (128k
sequence length) from 4.41 to 5.88. Code is available at:
https://github.com/ByteDance-Seed/AHN.