δ-mem: Эффективная онлайн-память для больших языковых моделей

Аннотация

Большие языковые модели всё чаще нуждаются в накоплении и повторном использовании исторической информации в долгосрочных ассистентах и агентных системах. Простое расширение окна контекста требует больших затрат и зачастую не обеспечивает эффективного использования контекста. Мы предлагаем δ-mem — лёгкий механизм памяти, который дополняет замороженный основной модуль полного внимания компактным онлайн-состоянием ассоциативной памяти. δ-mem сжимает прошлую информацию в матрицу состояний фиксированного размера, обновляемую с помощью обучения по дельта-правилу, и использует её считывание для генерации низкоранговых коррекций к вычислению внимания основного модуля во время генерации. Всего лишь с онлайн-состоянием памяти размером 8x8 δ-mem улучшает средний показатель в 1,10 раза по сравнению с замороженным основным модулем и в 1,15 раза по сравнению с сильнейшим не-δ-mem базовым методом памяти. Он достигает более значительных приростов на задачах с высокой нагрузкой на память: в 1,31 раза на MemoryAgentBench и в 1,20 раза на LoCoMo, при этом в значительной степени сохраняя общие способности. Эти результаты показывают, что эффективная память может быть реализована через компактное онлайн-состояние, напрямую связанное с вычислением внимания, без полного дообучения, замены основного модуля или явного расширения контекста.

English

Large language models increasingly need to accumulate and reuse historical information in long-term assistants and agent systems. Simply expanding the context window is costly and often fails to ensure effective context utilization. We propose δ-mem, a lightweight memory mechanism that augments a frozen full-attention backbone with a compact online state of associative memory. δ-mem compresses past information into a fixed-size state matrix updated by delta-rule learning, and uses its readout to generate low-rank corrections to the backbone's attention computation during generation. With only an 8times8 online memory state, δ-mem improves the average score to 1.10times that of the frozen backbone and 1.15times that of the strongest non-δ-mem memory baseline. It achieves larger gains on memory-heavy benchmarks, reaching 1.31times on MemoryAgentBench and 1.20times on LoCoMo, while largely preserving general capabilities. These results show that effective memory can be realized through a compact online state directly coupled with attention computation, without full fine-tuning, backbone replacement, or explicit context extension.

δ-mem: Эффективная онлайн-память для больших языковых моделей

δ-mem: Efficient Online Memory for Large Language Models

Аннотация

Support