LMEB: Benchmark per l'Incorporamento della Memoria a Lungo Termine

Abstract

Gli embedding di memoria sono cruciali per i sistemi potenziati con memoria, come OpenClaw, ma la loro valutazione è poco esplorata negli attuali benchmark per gli embedding testuali, che si concentrano in modo restrittivo sul recupero tradizionale di passaggi e non riescono a valutare la capacità dei modelli di gestire compiti di recupero della memoria a lungo termine che coinvolgono informazioni frammentate, dipendenti dal contesto e temporalmente distanti. Per affrontare questa lacuna, introduciamo il Benchmark per Embedding di Memoria a Lungo Termine (LMEB), un framework completo che valuta le capacità dei modelli di embedding nell'elaborare compiti complessi di recupero della memoria a lungo termine. LMEB comprende 22 dataset e 193 task di recupero zero-shot attraverso 4 tipi di memoria: episodica, dialogica, semantica e procedurale, con dati sia generati da IA che annotati da umani. Questi tipi di memoria differiscono in termini di livello di astrazione e dipendenza temporale, cogliendo aspetti distinti del recupero della memoria che riflettono le diverse sfide del mondo reale. Abbiamo valutato 15 modelli di embedding ampiamente utilizzati, che spaziano da centinaia di milioni a dieci miliardi di parametri. I risultati rivelano che (1) LMEB fornisce un livello di difficoltà ragionevole; (2) Modelli più grandi non sempre performano meglio; (3) LMEB e MTEB mostrano ortogonalità. Ciò suggerisce che il campo deve ancora convergere su un modello universale in grado di eccellere in tutti i compiti di recupero della memoria e che le prestazioni nel recupero tradizionale di passaggi potrebbero non generalizzarsi al recupero della memoria a lungo termine. In sintesi, fornendo un framework di valutazione standardizzato e riproducibile, LMEB colma un gap cruciale nella valutazione degli embedding di memoria, guidando ulteriori progressi negli embedding testuali per la gestione del recupero della memoria a lungo termine e dipendente dal contesto. LMEB è disponibile all'indirizzo https://github.com/KaLM-Embedding/LMEB.

English

Memory embeddings are crucial for memory-augmented systems, such as OpenClaw, but their evaluation is underexplored in current text embedding benchmarks, which narrowly focus on traditional passage retrieval and fail to assess models' ability to handle long-horizon memory retrieval tasks involving fragmented, context-dependent, and temporally distant information. To address this, we introduce the Long-horizon Memory Embedding Benchmark (LMEB), a comprehensive framework that evaluates embedding models' capabilities in handling complex, long-horizon memory retrieval tasks. LMEB spans 22 datasets and 193 zero-shot retrieval tasks across 4 memory types: episodic, dialogue, semantic, and procedural, with both AI-generated and human-annotated data. These memory types differ in terms of level of abstraction and temporal dependency, capturing distinct aspects of memory retrieval that reflect the diverse challenges of the real world. We evaluate 15 widely used embedding models, ranging from hundreds of millions to ten billion parameters. The results reveal that (1) LMEB provides a reasonable level of difficulty; (2) Larger models do not always perform better; (3) LMEB and MTEB exhibit orthogonality. This suggests that the field has yet to converge on a universal model capable of excelling across all memory retrieval tasks, and that performance in traditional passage retrieval may not generalize to long-horizon memory retrieval. In summary, by providing a standardized and reproducible evaluation framework, LMEB fills a crucial gap in memory embedding evaluation, driving further advancements in text embedding for handling long-term, context-dependent memory retrieval. LMEB is available at https://github.com/KaLM-Embedding/LMEB.

LMEB: Benchmark per l'Incorporamento della Memoria a Lungo Termine

LMEB: Long-horizon Memory Embedding Benchmark

Abstract

Support