Redes de Hipocampo Artificial para el Modelado Eficiente de Contextos Largos

Resumen

El modelado de secuencias largas enfrenta una compensación fundamental entre la eficiencia de la memoria compresiva de tamaño fijo en modelos similares a RNN y la fidelidad de la memoria creciente sin pérdida en Transformers basados en atención. Inspirados por el Modelo de Almacenamiento Múltiple en la ciencia cognitiva, introducimos un marco de memoria para redes neuronales artificiales. Nuestro método mantiene una ventana deslizante de la caché KV del Transformer como memoria a corto plazo sin pérdida, mientras que un módulo aprendible denominado Red de Hipocampo Artificial (AHN, por sus siglas en inglés) comprime recurrentemente la información fuera de la ventana en una memoria a largo plazo compacta de tamaño fijo. Para validar este marco, instanciamos AHNs utilizando arquitecturas modernas similares a RNN, incluyendo Mamba2, DeltaNet y Gated DeltaNet. Experimentos extensos en los puntos de referencia de contexto largo LV-Eval e InfiniteBench demuestran que los modelos aumentados con AHN superan consistentemente las líneas base de ventana deslizante y logran un rendimiento comparable o incluso superior a los modelos de atención completa, mientras reducen sustancialmente los requisitos computacionales y de memoria. Por ejemplo, aumentar el Qwen2.5-3B-Instruct con AHNs reduce los FLOPs de inferencia en un 40.5% y la caché de memoria en un 74.0%, mientras mejora su puntuación promedio en LV-Eval (longitud de secuencia de 128k) de 4.41 a 5.88. El código está disponible en: https://github.com/ByteDance-Seed/AHN.

English

Long-sequence modeling faces a fundamental trade-off between the efficiency of compressive fixed-size memory in RNN-like models and the fidelity of lossless growing memory in attention-based Transformers. Inspired by the Multi-Store Model in cognitive science, we introduce a memory framework of artificial neural networks. Our method maintains a sliding window of the Transformer's KV cache as lossless short-term memory, while a learnable module termed Artificial Hippocampus Network (AHN) recurrently compresses out-of-window information into a fixed-size compact long-term memory. To validate this framework, we instantiate AHNs using modern RNN-like architectures, including Mamba2, DeltaNet, and Gated DeltaNet. Extensive experiments on long-context benchmarks LV-Eval and InfiniteBench demonstrate that AHN-augmented models consistently outperform sliding window baselines and achieve performance comparable or even superior to full-attention models, while substantially reducing computational and memory requirements. For instance, augmenting the Qwen2.5-3B-Instruct with AHNs reduces inference FLOPs by 40.5% and memory cache by 74.0%, while improving its average score on LV-Eval (128k sequence length) from 4.41 to 5.88. Code is available at: https://github.com/ByteDance-Seed/AHN.

Redes de Hipocampo Artificial para el Modelado Eficiente de Contextos Largos

Artificial Hippocampus Networks for Efficient Long-Context Modeling

Resumen

Support