LMEB: Benchmark voor Inbedding van Lange-Termijn Geheugen

Samenvatting

Geheugen-embeddingen zijn cruciaal voor geheugenversterkte systemen zoals OpenClaw, maar hun evaluatie wordt onderbelicht in huidige tekst-embeddingbenchmarks. Deze richten zich te eng op traditionele passage-retrieval en slagen er niet in om het vermogen van modellen te beoordelen om langetermijngeheugen-retrievaltaken aan te kunnen, die gefragmenteerde, contextafhankelijke en temporeel verwijderde informatie omvatten. Om dit aan te pakken, introduceren we de Long-horizon Memory Embedding Benchmark (LMEB), een uitgebreid raamwerk dat de capaciteiten van embeddingmodellen evalueert bij het verwerken van complexe, langetermijngeheugen-retrievaltaken. LMEB bestrijkt 22 datasets en 193 zero-shot-retrievaltaken over 4 geheugentypes: episodisch, dialoog, semantisch en procedureel, met zowel AI-gegenereerde als door mensen geannoteerde data. Deze geheugentypes verschillen in abstractieniveau en temporele afhankelijkheid, en vangen distinctieve aspecten van geheugenretrieval die de diverse uitdagingen van de echte wereld weerspiegelen. We evalueren 15 veelgebruikte embeddingmodellen, variërend in grootte van honderden miljoenen tot tien miljard parameters. De resultaten tonen aan dat (1) LMEB een redelijk moeilijkheidsniveau biedt; (2) Grotere modellen niet altijd beter presteren; (3) LMEB en MTEB orthogonaliteit vertonen. Dit suggereert dat het veld nog niet geconvergeerd is naar een universeel model dat in staat is om uit te blinken in alle geheugenretrievaltaken, en dat prestaties in traditionele passage-retrieval mogelijk niet generaliseren naar langetermijngeheugen-retrieval. Samenvattend vult LMEB, door het bieden van een gestandaardiseerd en reproduceerbaar evaluatieraamwerk, een cruciaal gat in de evaluatie van geheugen-embeddingen, en drijft het verdere vooruitgang aan in tekst-embedding voor het omgaan met langetermijn, contextafhankelijke geheugenretrieval. LMEB is beschikbaar op https://github.com/KaLM-Embedding/LMEB.

English

Memory embeddings are crucial for memory-augmented systems, such as OpenClaw, but their evaluation is underexplored in current text embedding benchmarks, which narrowly focus on traditional passage retrieval and fail to assess models' ability to handle long-horizon memory retrieval tasks involving fragmented, context-dependent, and temporally distant information. To address this, we introduce the Long-horizon Memory Embedding Benchmark (LMEB), a comprehensive framework that evaluates embedding models' capabilities in handling complex, long-horizon memory retrieval tasks. LMEB spans 22 datasets and 193 zero-shot retrieval tasks across 4 memory types: episodic, dialogue, semantic, and procedural, with both AI-generated and human-annotated data. These memory types differ in terms of level of abstraction and temporal dependency, capturing distinct aspects of memory retrieval that reflect the diverse challenges of the real world. We evaluate 15 widely used embedding models, ranging from hundreds of millions to ten billion parameters. The results reveal that (1) LMEB provides a reasonable level of difficulty; (2) Larger models do not always perform better; (3) LMEB and MTEB exhibit orthogonality. This suggests that the field has yet to converge on a universal model capable of excelling across all memory retrieval tasks, and that performance in traditional passage retrieval may not generalize to long-horizon memory retrieval. In summary, by providing a standardized and reproducible evaluation framework, LMEB fills a crucial gap in memory embedding evaluation, driving further advancements in text embedding for handling long-term, context-dependent memory retrieval. LMEB is available at https://github.com/KaLM-Embedding/LMEB.

LMEB: Benchmark voor Inbedding van Lange-Termijn Geheugen

LMEB: Long-horizon Memory Embedding Benchmark

Samenvatting

Support