δ-mem: Memoria en línea eficiente para Modelos de Lenguaje Grandes

Resumen

Los modelos de lenguaje de gran escala necesitan cada vez más acumular y reutilizar información histórica en sistemas de asistentes y agentes de largo plazo. Simplemente expandir la ventana de contexto es costoso y a menudo no logra garantizar un uso efectivo del contexto. Proponemos δ-mem, un mecanismo de memoria ligero que aumenta un backbone de atención completa congelado con un estado compacto en línea de memoria asociativa. δ-mem comprime información pasada en una matriz de estado de tamaño fijo actualizada mediante aprendizaje por regla delta, y utiliza su lectura para generar correcciones de bajo rango en el cálculo de atención del backbone durante la generación. Con un estado de memoria en línea de solo 8×8, δ-mem mejora la puntuación media a 1,10 veces la del backbone congelado y a 1,15 veces la del mejor método de memoria base que no utiliza δ-mem. Logra mayores ganancias en puntos de referencia con alta carga de memoria, alcanzando 1,31 veces en MemoryAgentBench y 1,20 veces en LoCoMo, mientras preserva en gran medida las capacidades generales. Estos resultados demuestran que una memoria efectiva puede lograrse mediante un estado compacto en línea directamente acoplado con el cálculo de atención, sin necesidad de ajuste fino completo, reemplazo del backbone ni extensión explícita del contexto.

English

Large language models increasingly need to accumulate and reuse historical information in long-term assistants and agent systems. Simply expanding the context window is costly and often fails to ensure effective context utilization. We propose δ-mem, a lightweight memory mechanism that augments a frozen full-attention backbone with a compact online state of associative memory. δ-mem compresses past information into a fixed-size state matrix updated by delta-rule learning, and uses its readout to generate low-rank corrections to the backbone's attention computation during generation. With only an 8times8 online memory state, δ-mem improves the average score to 1.10times that of the frozen backbone and 1.15times that of the strongest non-δ-mem memory baseline. It achieves larger gains on memory-heavy benchmarks, reaching 1.31times on MemoryAgentBench and 1.20times on LoCoMo, while largely preserving general capabilities. These results show that effective memory can be realized through a compact online state directly coupled with attention computation, without full fine-tuning, backbone replacement, or explicit context extension.

δ-mem: Memoria en línea eficiente para Modelos de Lenguaje Grandes

δ-mem: Efficient Online Memory for Large Language Models

Resumen

Support