LMEB: Benchmark de Incorporação de Memória de Longo Horizonte

Resumo

Os embeddings de memória são cruciais para sistemas aumentados por memória, como o OpenClaw, mas a sua avaliação é pouco explorada nos benchmarks atuais de embeddings de texto, que se concentram de forma restrita na recuperação tradicional de passagens e falham em avaliar a capacidade dos modelos para lidar com tarefas de recuperação de memória de longo horizonte que envolvem informações fragmentadas, dependentes de contexto e temporalmente distantes. Para resolver isso, introduzimos o *Long-horizon Memory Embedding Benchmark* (LMEB), uma estrutura abrangente que avalia as capacidades dos modelos de embedding no tratamento de tarefas complexas de recuperação de memória de longo horizonte. O LMEB abrange 22 conjuntos de dados e 193 tarefas de recuperação *zero-shot* em 4 tipos de memória: episódica, de diálogo, semântica e procedural, com dados gerados por IA e anotados por humanos. Estes tipos de memória diferem em termos de nível de abstração e dependência temporal, capturando aspetos distintos da recuperação de memória que refletem os diversos desafios do mundo real. Avaliámos 15 modelos de embedding amplamente utilizados, variando de centenas de milhões a dez mil milhões de parâmetros. Os resultados revelam que (1) o LMEB fornece um nível de dificuldade razoável; (2) Modelos maiores nem sempre têm um desempenho superior; (3) O LMEB e o MTEB exibem ortogonalidade. Isto sugere que a área ainda não convergiu para um modelo universal capaz de se destacar em todas as tarefas de recuperação de memória, e que o desempenho na recuperação tradicional de passagens pode não generalizar para a recuperação de memória de longo horizonte. Em resumo, ao fornecer uma estrutura de avaliação padronizada e reproduzível, o LMEB preenche uma lacuna crucial na avaliação de embeddings de memória, impulsionando avanços adicionais nos embeddings de texto para lidar com a recuperação de memória de longo prazo e dependente de contexto. O LMEB está disponível em https://github.com/KaLM-Embedding/LMEB.

English

Memory embeddings are crucial for memory-augmented systems, such as OpenClaw, but their evaluation is underexplored in current text embedding benchmarks, which narrowly focus on traditional passage retrieval and fail to assess models' ability to handle long-horizon memory retrieval tasks involving fragmented, context-dependent, and temporally distant information. To address this, we introduce the Long-horizon Memory Embedding Benchmark (LMEB), a comprehensive framework that evaluates embedding models' capabilities in handling complex, long-horizon memory retrieval tasks. LMEB spans 22 datasets and 193 zero-shot retrieval tasks across 4 memory types: episodic, dialogue, semantic, and procedural, with both AI-generated and human-annotated data. These memory types differ in terms of level of abstraction and temporal dependency, capturing distinct aspects of memory retrieval that reflect the diverse challenges of the real world. We evaluate 15 widely used embedding models, ranging from hundreds of millions to ten billion parameters. The results reveal that (1) LMEB provides a reasonable level of difficulty; (2) Larger models do not always perform better; (3) LMEB and MTEB exhibit orthogonality. This suggests that the field has yet to converge on a universal model capable of excelling across all memory retrieval tasks, and that performance in traditional passage retrieval may not generalize to long-horizon memory retrieval. In summary, by providing a standardized and reproducible evaluation framework, LMEB fills a crucial gap in memory embedding evaluation, driving further advancements in text embedding for handling long-term, context-dependent memory retrieval. LMEB is available at https://github.com/KaLM-Embedding/LMEB.