LMEB: Benchmark für Langzeitspeicher-Einbettungen

Zusammenfassung

Memory Embeddings sind entscheidend für speichererweiterte Systeme wie OpenClaw, doch ihre Bewertung wird in aktuellen Text-Embedding-Benchmarks kaum erforscht. Diese konzentrieren sich eng auf traditionelles Passage-Retrieval und versagen darin, die Fähigkeit von Modellen zu bewerten, langfristige Speicher-Retrieval-Aufgaben zu bewältigen, die fragmentierte, kontextabhängige und zeitlich entfernte Informationen betreffen. Um dies zu adressieren, führen wir den Long-horizon Memory Embedding Benchmark (LMEB) ein – einen umfassenden Rahmen, der die Fähigkeiten von Embedding-Modellen im Umgang mit komplexen, langfristigen Speicher-Retrieval-Aufgaben evaluiert. LMEB umfasst 22 Datensätze und 193 Zero-Shot-Retrieval-Aufgaben über 4 Speichertypen hinweg: episodisch, dialogbasiert, semantisch und prozedural, mit sowohl KI-generierten als auch humanannotierten Daten. Diese Speichertypen unterscheiden sich in Bezug auf Abstraktionsniveau und zeitliche Abhängigkeit und erfassen unterschiedliche Aspekte des Speicher-Retrievals, die die vielfältigen Herausforderungen der realen Welt widerspiegeln. Wir evaluieren 15 weit verbreitete Embedding-Modelle, die von hunderten Millionen bis zu zehn Milliarden Parametern reichen. Die Ergebnisse zeigen, dass (1) LMEB ein angemessenes Schwierigkeitsniveau bietet; (2) Größere Modelle nicht immer besser abschneiden; (3) LMEB und MTEB Orthogonalität aufweisen. Dies deutet darauf hin, dass sich das Feld noch nicht auf ein universelles Modell geeinigt hat, das in allen Speicher-Retrieval-Aufgaben hervorragend abschneiden kann, und dass die Leistung im traditionellen Passage-Retrieval möglicherweise nicht auf langfristiges Speicher-Retrieval verallgemeinerbar ist. Zusammenfassend lässt sich sagen, dass LMEB durch die Bereitstellung eines standardisierten und reproduzierbaren Bewertungsrahmens eine entscheidende Lücke in der Bewertung von Memory Embeddings schließt und so weitere Fortschritte bei Text-Embeddings für die Handhabung von langfristigem, kontextabhängigem Speicher-Retrieval vorantreibt. LMEB ist verfügbar unter https://github.com/KaLM-Embedding/LMEB.

English

Memory embeddings are crucial for memory-augmented systems, such as OpenClaw, but their evaluation is underexplored in current text embedding benchmarks, which narrowly focus on traditional passage retrieval and fail to assess models' ability to handle long-horizon memory retrieval tasks involving fragmented, context-dependent, and temporally distant information. To address this, we introduce the Long-horizon Memory Embedding Benchmark (LMEB), a comprehensive framework that evaluates embedding models' capabilities in handling complex, long-horizon memory retrieval tasks. LMEB spans 22 datasets and 193 zero-shot retrieval tasks across 4 memory types: episodic, dialogue, semantic, and procedural, with both AI-generated and human-annotated data. These memory types differ in terms of level of abstraction and temporal dependency, capturing distinct aspects of memory retrieval that reflect the diverse challenges of the real world. We evaluate 15 widely used embedding models, ranging from hundreds of millions to ten billion parameters. The results reveal that (1) LMEB provides a reasonable level of difficulty; (2) Larger models do not always perform better; (3) LMEB and MTEB exhibit orthogonality. This suggests that the field has yet to converge on a universal model capable of excelling across all memory retrieval tasks, and that performance in traditional passage retrieval may not generalize to long-horizon memory retrieval. In summary, by providing a standardized and reproducible evaluation framework, LMEB fills a crucial gap in memory embedding evaluation, driving further advancements in text embedding for handling long-term, context-dependent memory retrieval. LMEB is available at https://github.com/KaLM-Embedding/LMEB.

LMEB: Benchmark für Langzeitspeicher-Einbettungen

LMEB: Long-horizon Memory Embedding Benchmark

Zusammenfassung

Support