LMEB: 장기 기억 임베딩 벤치마크
LMEB: Long-horizon Memory Embedding Benchmark
March 13, 2026
저자: Xinping Zhao, Xinshuo Hu, Jiaxin Xu, Danyu Tang, Xin Zhang, Mengjia Zhou, Yan Zhong, Yao Zhou, Zifei Shan, Meishan Zhang, Baotian Hu, Min Zhang
cs.AI
초록
메모리 임베딩은 OpenClaw와 같은 메모리 증강 시스템에 필수적이지만, 그 평가는 기존의 단순한 문서 검색에만 초점을 맞추고 파편화되고 문맥 의존적이며 시간적으로 먼 정보를 포함하는 장기적 메모리 검색 작업 처리 능력을 평가하지 못하는 현재의 텍스트 임베딩 벤치마크에서 제대로 연구되지 않고 있습니다. 이를 해결하기 위해 우리는 복잡한 장기적 메모리 검색 작업 처리 능력을 평가하는 포괄적인 프레임워크인 장기적 메모리 임베딩 벤치마크(LMEB)를 소개합니다. LMEB는 22개의 데이터셋과 4가지 메모리 유형(에피소드, 대화, 의미, 절차)에 걸친 193개의 제로샷 검색 작업으로 구성되며, AI 생성 데이터와 인간 주석 데이터를 모두 포함합니다. 이러한 메모리 유형은 추상화 수준과 시간적 의존성 측면에서 차이가 나며, 현실 세계의 다양한 도전 과제를 반영하는 메모리 검색의 독특한 측면을 포착합니다. 우리는 수억 개에서 수백억 개의 파라미터를 가진 널리 사용되는 15개의 임베딩 모델을 평가했습니다. 결과는 (1) LMEB가 합리적인 수준의 난이도를 제공하며, (2) 더 큰 모델이 항상 더 나은 성능을 보이는 것은 아니며, (3) LMEB와 MTEB가 직교성을 나타냄을 보여줍니다. 이는 해당 분야가 모든 메모리 검색 작업에서 뛰어난 성능을 발휘할 수 있는 보편적인 모델로 아직 수렴되지 않았으며, 기존 문서 검색의 성능이 장기적 메모리 검색으로 일반화되지 않을 수 있음을 시사합니다. 요약하면, 표준화되고 재현 가능한 평가 프레임워크를 제공함으로써 LMEB는 메모리 임베딩 평가의 중요한 공백을 메꾸며 장기적이고 문맥 의존적인 메모리 검색 처리를 위한 텍스트 임베딩의 발전을 더욱 촉진합니다. LMEB는 https://github.com/KaLM-Embedding/LMEB에서 이용할 수 있습니다.
English
Memory embeddings are crucial for memory-augmented systems, such as OpenClaw, but their evaluation is underexplored in current text embedding benchmarks, which narrowly focus on traditional passage retrieval and fail to assess models' ability to handle long-horizon memory retrieval tasks involving fragmented, context-dependent, and temporally distant information. To address this, we introduce the Long-horizon Memory Embedding Benchmark (LMEB), a comprehensive framework that evaluates embedding models' capabilities in handling complex, long-horizon memory retrieval tasks. LMEB spans 22 datasets and 193 zero-shot retrieval tasks across 4 memory types: episodic, dialogue, semantic, and procedural, with both AI-generated and human-annotated data. These memory types differ in terms of level of abstraction and temporal dependency, capturing distinct aspects of memory retrieval that reflect the diverse challenges of the real world. We evaluate 15 widely used embedding models, ranging from hundreds of millions to ten billion parameters. The results reveal that (1) LMEB provides a reasonable level of difficulty; (2) Larger models do not always perform better; (3) LMEB and MTEB exhibit orthogonality. This suggests that the field has yet to converge on a universal model capable of excelling across all memory retrieval tasks, and that performance in traditional passage retrieval may not generalize to long-horizon memory retrieval. In summary, by providing a standardized and reproducible evaluation framework, LMEB fills a crucial gap in memory embedding evaluation, driving further advancements in text embedding for handling long-term, context-dependent memory retrieval. LMEB is available at https://github.com/KaLM-Embedding/LMEB.