LMEB: Бенчмарк встраивания долгосрочной памяти
LMEB: Long-horizon Memory Embedding Benchmark
March 13, 2026
Авторы: Xinping Zhao, Xinshuo Hu, Jiaxin Xu, Danyu Tang, Xin Zhang, Mengjia Zhou, Yan Zhong, Yao Zhou, Zifei Shan, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI
Аннотация
Встраивания памяти играют ключевую роль в системах с расширенной памятью, таких как OpenClaw, однако их оценка недостаточно изучена в современных бенчмарках текстовых эмбеддингов, которые узко сфокусированы на традиционном поиске пассажей и не способны оценить способность моделей справляться с задачами извлечения памяти в долгосрочном горизонте, связанными с фрагментированной, контекстно-зависимой и временно удаленной информацией. Чтобы решить эту проблему, мы представляем Бенчмарк эмбеддингов для долгосрочной памяти (Long-horizon Memory Embedding Benchmark, LMEB) — комплексную структуру, которая оценивает возможности моделей эмбеддингов в обработке сложных задач извлечения памяти в долгосрочном горизонте. LMEB охватывает 22 набора данных и 193 задачи zero-shot поиска по 4 типам памяти: эпизодической, диалоговой, семантической и процедурной, с использованием как сгенерированных ИИ, так и аннотированных человеком данных. Эти типы памяти различаются по уровню абстракции и временной зависимости, отражая различные аспекты извлечения памяти, которые соответствуют разнообразным вызовам реального мира. Мы оценили 15 широко используемых моделей эмбеддингов с диапазоном параметров от сотен миллионов до десятков миллиардов. Результаты показывают, что (1) LMEB обеспечивает разумный уровень сложности; (2) Более крупные модели не всегда работают лучше; (3) LMEB и MTEB демонстрируют ортогональность. Это свидетельствует о том, что область еще не пришла к универсальной модели, способной преуспеть во всех задачах извлечения памяти, и что производительность в традиционном поиске пассажей может не обобщаться на долгосрочное извлечение памяти. В итоге, предоставляя стандартизированную и воспроизводимую структуру оценки, LMEB заполняет критический пробел в оценке эмбеддингов памяти, способствуя дальнейшему прогрессу в области текстовых эмбеддингов для обработки долгосрочного, контекстно-зависимого извлечения памяти. LMEB доступен по адресу https://github.com/KaLM-Embedding/LMEB.
English
Memory embeddings are crucial for memory-augmented systems, such as OpenClaw, but their evaluation is underexplored in current text embedding benchmarks, which narrowly focus on traditional passage retrieval and fail to assess models' ability to handle long-horizon memory retrieval tasks involving fragmented, context-dependent, and temporally distant information. To address this, we introduce the Long-horizon Memory Embedding Benchmark (LMEB), a comprehensive framework that evaluates embedding models' capabilities in handling complex, long-horizon memory retrieval tasks. LMEB spans 22 datasets and 193 zero-shot retrieval tasks across 4 memory types: episodic, dialogue, semantic, and procedural, with both AI-generated and human-annotated data. These memory types differ in terms of level of abstraction and temporal dependency, capturing distinct aspects of memory retrieval that reflect the diverse challenges of the real world. We evaluate 15 widely used embedding models, ranging from hundreds of millions to ten billion parameters. The results reveal that (1) LMEB provides a reasonable level of difficulty; (2) Larger models do not always perform better; (3) LMEB and MTEB exhibit orthogonality. This suggests that the field has yet to converge on a universal model capable of excelling across all memory retrieval tasks, and that performance in traditional passage retrieval may not generalize to long-horizon memory retrieval. In summary, by providing a standardized and reproducible evaluation framework, LMEB fills a crucial gap in memory embedding evaluation, driving further advancements in text embedding for handling long-term, context-dependent memory retrieval. LMEB is available at https://github.com/KaLM-Embedding/LMEB.