LMEB : Benchmark d'Intégration de Mémoire à Long Terme

Résumé

Les embeddings de mémoire sont cruciaux pour les systèmes augmentés par la mémoire, tels qu'OpenClaw, mais leur évaluation est sous-explorée dans les benchmarks actuels d'embedding de texte. Ces derniers se concentrent étroitement sur la recherche de passages traditionnelle et ne parviennent pas à évaluer la capacité des modèles à gérer des tâches de récupération de mémoire à long horizon impliquant des informations fragmentées, dépendantes du contexte et temporellement éloignées. Pour remédier à cela, nous présentons le *Long-horizon Memory Embedding Benchmark* (LMEB), un cadre complet qui évalue les capacités des modèles d'embedding à gérer des tâches complexes de récupération de mémoire à long horizon. LMEB couvre 22 jeux de données et 193 tâches de recherche zero-shot réparties dans 4 types de mémoire : épisodique, dialogique, sémantique et procédurale, avec des données générées par IA et annotées par des humains. Ces types de mémoire diffèrent en termes de niveau d'abstraction et de dépendance temporelle, capturant des aspects distincts de la récupération de mémoire qui reflètent les défis divers du monde réel. Nous évaluons 15 modèles d'embedding largement utilisés, allant de centaines de millions à dix milliards de paramètres. Les résultats révèlent que (1) LMEB offre un niveau de difficulté raisonnable ; (2) Les modèles plus grands ne sont pas toujours plus performants ; (3) LMEB et MTEB présentent une orthogonalité. Cela suggère que le domaine n'a pas encore convergé vers un modèle universel capable d'exceller dans toutes les tâches de récupération de mémoire, et que les performances en recherche de passages traditionnelle peuvent ne pas se généraliser à la récupération de mémoire à long horizon. En résumé, en fournissant un cadre d'évaluation standardisé et reproductible, LMEB comble une lacune cruciale dans l'évaluation des embeddings de mémoire, stimulant les progrès dans l'embedding de texte pour la gestion de la récupération de mémoire à long terme et dépendante du contexte. LMEB est disponible à l'adresse https://github.com/KaLM-Embedding/LMEB.

English

Memory embeddings are crucial for memory-augmented systems, such as OpenClaw, but their evaluation is underexplored in current text embedding benchmarks, which narrowly focus on traditional passage retrieval and fail to assess models' ability to handle long-horizon memory retrieval tasks involving fragmented, context-dependent, and temporally distant information. To address this, we introduce the Long-horizon Memory Embedding Benchmark (LMEB), a comprehensive framework that evaluates embedding models' capabilities in handling complex, long-horizon memory retrieval tasks. LMEB spans 22 datasets and 193 zero-shot retrieval tasks across 4 memory types: episodic, dialogue, semantic, and procedural, with both AI-generated and human-annotated data. These memory types differ in terms of level of abstraction and temporal dependency, capturing distinct aspects of memory retrieval that reflect the diverse challenges of the real world. We evaluate 15 widely used embedding models, ranging from hundreds of millions to ten billion parameters. The results reveal that (1) LMEB provides a reasonable level of difficulty; (2) Larger models do not always perform better; (3) LMEB and MTEB exhibit orthogonality. This suggests that the field has yet to converge on a universal model capable of excelling across all memory retrieval tasks, and that performance in traditional passage retrieval may not generalize to long-horizon memory retrieval. In summary, by providing a standardized and reproducible evaluation framework, LMEB fills a crucial gap in memory embedding evaluation, driving further advancements in text embedding for handling long-term, context-dependent memory retrieval. LMEB is available at https://github.com/KaLM-Embedding/LMEB.

LMEB : Benchmark d'Intégration de Mémoire à Long Terme

LMEB: Long-horizon Memory Embedding Benchmark

Résumé

Support