LongMemEval: Valutazione delle prestazioni degli assistenti virtuali nella memorizzazione interattiva a lungo termine.
LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory
October 14, 2024
Autori: Di Wu, Hongwei Wang, Wenhao Yu, Yuwei Zhang, Kai-Wei Chang, Dong Yu
cs.AI
Abstract
I recenti sistemi di assistenti chat basati su grandi modelli linguistici (LLM) hanno integrato componenti di memoria per tracciare la cronologia delle chat tra utente e assistente, consentendo risposte più accurate e personalizzate. Tuttavia, le capacità di memoria a lungo termine nelle interazioni prolungate rimangono poco esplorate. Questo articolo presenta LongMemEval, un benchmark completo progettato per valutare cinque abilità fondamentali di memoria a lungo termine degli assistenti chat: estrazione delle informazioni, ragionamento multi-sessione, ragionamento temporale, aggiornamenti della conoscenza e astensione. Con 500 domande accuratamente selezionate incorporate all'interno di cronologie di chat tra utente e assistente liberamente scalabili, LongMemEval rappresenta una sfida significativa per i sistemi di memoria a lungo termine esistenti, con assistenti chat commerciali e LLM a lungo contesto che mostrano una diminuzione del 30% nell'accuratezza nel memorizzare informazioni durante interazioni prolungate. Successivamente presentiamo un framework unificato che suddivide il design della memoria a lungo termine in quattro scelte progettuali tra le fasi di indicizzazione, recupero e lettura. Basandoci su importanti intuizioni sperimentali, proponiamo diversi design di memoria tra cui la decomposizione della sessione per ottimizzare la granularità del valore, l'espansione chiave arricchita di fatti per migliorare la struttura dell'indice e l'espansione della query consapevole del tempo per affinare l'ambito di ricerca. I risultati sperimentali mostrano che queste ottimizzazioni migliorano notevolmente sia il richiamo della memoria che la risposta alle domande successive su LongMemEval. Nel complesso, il nostro studio fornisce risorse preziose e linee guida per migliorare le capacità di memoria a lungo termine degli assistenti chat basati su LLM, aprendo la strada verso un'intelligenza artificiale conversazionale più personalizzata e affidabile.
English
Recent large language model (LLM)-driven chat assistant systems have
integrated memory components to track user-assistant chat histories, enabling
more accurate and personalized responses. However, their long-term memory
capabilities in sustained interactions remain underexplored. This paper
introduces LongMemEval, a comprehensive benchmark designed to evaluate five
core long-term memory abilities of chat assistants: information extraction,
multi-session reasoning, temporal reasoning, knowledge updates, and abstention.
With 500 meticulously curated questions embedded within freely scalable
user-assistant chat histories, LongMemEval presents a significant challenge to
existing long-term memory systems, with commercial chat assistants and
long-context LLMs showing 30% accuracy drop on memorizing information across
sustained interactions. We then present a unified framework that breaks down
the long-term memory design into four design choices across the indexing,
retrieval, and reading stages. Built upon key experimental insights, we propose
several memory designs including session decomposition for optimizing value
granularity, fact-augmented key expansion for enhancing the index structure,
and time-aware query expansion for refining the search scope. Experiment
results show that these optimizations greatly improve both memory recall and
downstream question answering on LongMemEval. Overall, our study provides
valuable resources and guidance for advancing the long-term memory capabilities
of LLM-based chat assistants, paving the way toward more personalized and
reliable conversational AI.Summary
AI-Generated Summary