UMEM: Унифицированная структура для извлечения и управления памятью для обобщаемой памяти

Аннотация

Саморазвивающаяся память служит обучаемыми параметрами для агентов на основе больших языковых моделей (LLM), где извлечение (извлечение инсайтов из опыта) и управление (обновление банка памяти) должны быть тесно скоординированы. Существующие методы в основном оптимизируют управление памятью, рассматривая извлечение памяти как статический процесс, что приводит к слабой обобщающей способности, когда агенты накапливают специфичный для конкретных примеров шум, а не устойчивые воспоминания. Чтобы решить эту проблему, мы предлагаем UMEM — фреймворк для саморазвивающихся агентов, который совместно оптимизирует большую языковую модель для одновременного извлечения и управления памятью. Для предотвращения переобучения на конкретных примерах мы вводим моделирование семантических окрестностей и оптимизируем модель с помощью вознаграждения на уровне окрестностей через GRPO. Этот подход обеспечивает обобщаемость памяти за счет оценки полезности воспоминаний в кластерах семантически связанных запросов. Многочисленные эксперименты на пяти бенчмарках показывают, что UMEM значительно превосходит высококонкурентные базовые методы, демонстрируя улучшение до 10,67% в многозадачных интерактивных сценариях. Кроме того, UMEM сохраняет монотонную кривую роста в процессе непрерывной эволюции. Код и модели будут публично доступны.

English

Self-evolving memory serves as the trainable parameters for Large Language Models (LLMs)-based agents, where extraction (distilling insights from experience) and management (updating the memory bank) must be tightly coordinated. Existing methods predominately optimize memory management while treating memory extraction as a static process, resulting in poor generalization, where agents accumulate instance-specific noise rather than robust memories. To address this, we propose Unified Memory Extraction and Management (UMEM), a self-evolving agent framework that jointly optimizes a Large Language Model to simultaneous extract and manage memories. To mitigate overfitting to specific instances, we introduce Semantic Neighborhood Modeling and optimize the model with a neighborhood-level marginal utility reward via GRPO. This approach ensures memory generalizability by evaluating memory utility across clusters of semantically related queries. Extensive experiments across five benchmarks demonstrate that UMEM significantly outperforms highly competitive baselines, achieving up to a 10.67% improvement in multi-turn interactive tasks. Futhermore, UMEM maintains a monotonic growth curve during continuous evolution. Codes and models will be publicly released.

UMEM: Унифицированная структура для извлечения и управления памятью для обобщаемой памяти

UMEM: Unified Memory Extraction and Management Framework for Generalizable Memory

Аннотация

Support