LMEB: Benchmark de Incrustación de Memoria de Horizonte Largo

Resumen

Las incrustaciones de memoria son cruciales para sistemas aumentados con memoria, como OpenClaw, pero su evaluación está poco explorada en los puntos de referencia actuales de incrustación de texto, los cuales se centran de manera limitada en la recuperación tradicional de pasajes y no logran evaluar la capacidad de los modelos para manejar tareas de recuperación de memoria de largo horizonte que involucran información fragmentada, dependiente del contexto y temporalmente distante. Para abordar esto, presentamos el Punto de Referencia de Incrustación de Memoria de Largo Horizonte (LMEB), un marco integral que evalúa las capacidades de los modelos de incrustación para manejar tareas complejas de recuperación de memoria de largo horizonte. LMEB abarca 22 conjuntos de datos y 193 tareas de recuperación zero-shot en 4 tipos de memoria: episódica, de diálogo, semántica y procedural, con datos tanto generados por IA como anotados por humanos. Estos tipos de memoria difieren en términos de nivel de abstracción y dependencia temporal, capturando aspectos distintos de la recuperación de memoria que reflejan los diversos desafíos del mundo real. Evaluamos 15 modelos de incrustación ampliamente utilizados, que van desde cientos de millones hasta diez mil millones de parámetros. Los resultados revelan que (1) LMEB proporciona un nivel razonable de dificultad; (2) Los modelos más grandes no siempre funcionan mejor; (3) LMEB y MTEB exhiben ortogonalidad. Esto sugiere que el campo aún tiene que converger en un modelo universal capaz de sobresalir en todas las tareas de recuperación de memoria, y que el rendimiento en la recuperación tradicional de pasajes puede no generalizarse a la recuperación de memoria de largo horizonte. En resumen, al proporcionar un marco de evaluación estandarizado y reproducible, LMEB llena un vacío crucial en la evaluación de incrustaciones de memoria, impulsando avances adicionales en la incrustación de texto para manejar la recuperación de memoria a largo plazo y dependiente del contexto. LMEB está disponible en https://github.com/KaLM-Embedding/LMEB.

English

Memory embeddings are crucial for memory-augmented systems, such as OpenClaw, but their evaluation is underexplored in current text embedding benchmarks, which narrowly focus on traditional passage retrieval and fail to assess models' ability to handle long-horizon memory retrieval tasks involving fragmented, context-dependent, and temporally distant information. To address this, we introduce the Long-horizon Memory Embedding Benchmark (LMEB), a comprehensive framework that evaluates embedding models' capabilities in handling complex, long-horizon memory retrieval tasks. LMEB spans 22 datasets and 193 zero-shot retrieval tasks across 4 memory types: episodic, dialogue, semantic, and procedural, with both AI-generated and human-annotated data. These memory types differ in terms of level of abstraction and temporal dependency, capturing distinct aspects of memory retrieval that reflect the diverse challenges of the real world. We evaluate 15 widely used embedding models, ranging from hundreds of millions to ten billion parameters. The results reveal that (1) LMEB provides a reasonable level of difficulty; (2) Larger models do not always perform better; (3) LMEB and MTEB exhibit orthogonality. This suggests that the field has yet to converge on a universal model capable of excelling across all memory retrieval tasks, and that performance in traditional passage retrieval may not generalize to long-horizon memory retrieval. In summary, by providing a standardized and reproducible evaluation framework, LMEB fills a crucial gap in memory embedding evaluation, driving further advancements in text embedding for handling long-term, context-dependent memory retrieval. LMEB is available at https://github.com/KaLM-Embedding/LMEB.

LMEB: Benchmark de Incrustación de Memoria de Horizonte Largo

LMEB: Long-horizon Memory Embedding Benchmark

Resumen

Support