LongMemEval: Valutazione delle prestazioni degli assistenti virtuali nella memorizzazione interattiva a lungo termine.

Abstract

I recenti sistemi di assistenti chat basati su grandi modelli linguistici (LLM) hanno integrato componenti di memoria per tracciare la cronologia delle chat tra utente e assistente, consentendo risposte più accurate e personalizzate. Tuttavia, le capacità di memoria a lungo termine nelle interazioni prolungate rimangono poco esplorate. Questo articolo presenta LongMemEval, un benchmark completo progettato per valutare cinque abilità fondamentali di memoria a lungo termine degli assistenti chat: estrazione delle informazioni, ragionamento multi-sessione, ragionamento temporale, aggiornamenti della conoscenza e astensione. Con 500 domande accuratamente selezionate incorporate all'interno di cronologie di chat tra utente e assistente liberamente scalabili, LongMemEval rappresenta una sfida significativa per i sistemi di memoria a lungo termine esistenti, con assistenti chat commerciali e LLM a lungo contesto che mostrano una diminuzione del 30% nell'accuratezza nel memorizzare informazioni durante interazioni prolungate. Successivamente presentiamo un framework unificato che suddivide il design della memoria a lungo termine in quattro scelte progettuali tra le fasi di indicizzazione, recupero e lettura. Basandoci su importanti intuizioni sperimentali, proponiamo diversi design di memoria tra cui la decomposizione della sessione per ottimizzare la granularità del valore, l'espansione chiave arricchita di fatti per migliorare la struttura dell'indice e l'espansione della query consapevole del tempo per affinare l'ambito di ricerca. I risultati sperimentali mostrano che queste ottimizzazioni migliorano notevolmente sia il richiamo della memoria che la risposta alle domande successive su LongMemEval. Nel complesso, il nostro studio fornisce risorse preziose e linee guida per migliorare le capacità di memoria a lungo termine degli assistenti chat basati su LLM, aprendo la strada verso un'intelligenza artificiale conversazionale più personalizzata e affidabile.

English

Recent large language model (LLM)-driven chat assistant systems have integrated memory components to track user-assistant chat histories, enabling more accurate and personalized responses. However, their long-term memory capabilities in sustained interactions remain underexplored. This paper introduces LongMemEval, a comprehensive benchmark designed to evaluate five core long-term memory abilities of chat assistants: information extraction, multi-session reasoning, temporal reasoning, knowledge updates, and abstention. With 500 meticulously curated questions embedded within freely scalable user-assistant chat histories, LongMemEval presents a significant challenge to existing long-term memory systems, with commercial chat assistants and long-context LLMs showing 30% accuracy drop on memorizing information across sustained interactions. We then present a unified framework that breaks down the long-term memory design into four design choices across the indexing, retrieval, and reading stages. Built upon key experimental insights, we propose several memory designs including session decomposition for optimizing value granularity, fact-augmented key expansion for enhancing the index structure, and time-aware query expansion for refining the search scope. Experiment results show that these optimizations greatly improve both memory recall and downstream question answering on LongMemEval. Overall, our study provides valuable resources and guidance for advancing the long-term memory capabilities of LLM-based chat assistants, paving the way toward more personalized and reliable conversational AI.

LongMemEval: Valutazione delle prestazioni degli assistenti virtuali nella memorizzazione interattiva a lungo termine.

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

Abstract

Summary

Support

Support