LongMemEval: Beoordeling van Chatassistenten op Langdurig Interactief Geheugen
LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory
October 14, 2024
Auteurs: Di Wu, Hongwei Wang, Wenhao Yu, Yuwei Zhang, Kai-Wei Chang, Dong Yu
cs.AI
Samenvatting
Recente grote taalmodel (GTM)-gestuurde chatassistent systemen hebben geheugencomponenten geïntegreerd om gebruiker-assistent chatgeschiedenissen bij te houden, waardoor nauwkeurigere en gepersonaliseerde reacties mogelijk zijn. Echter, hun langetermijngeheugencapaciteiten in voortdurende interacties blijven onderbelicht. Dit artikel introduceert LongMemEval, een uitgebreide benchmark ontworpen om vijf kern langetermijngeheugen vaardigheden van chatassistenten te evalueren: informatie-extractie, multi-sessie redenering, temporale redenering, kennisupdates, en onthouding. Met 500 nauwkeurig samengestelde vragen ingebed in vrij schaalbare gebruiker-assistent chatgeschiedenissen, stelt LongMemEval een aanzienlijke uitdaging aan bestaande langetermijngeheugensystemen, waarbij commerciële chatassistenten en lang-context GTM's een nauwkeurigheidsdaling van 30% tonen bij het onthouden van informatie over voortdurende interacties. Vervolgens presenteren we een verenigd kader dat het langetermijngeheugendesign opsplitst in vier ontwerpkeuzes over de indexering, opvraging, en leesfasen. Gebaseerd op belangrijke experimentele inzichten stellen we verschillende geheugendesigns voor, waaronder sessie-decompositie voor het optimaliseren van de waardegranulariteit, feit-verrijkte sleuteluitbreiding voor het verbeteren van de indexstructuur, en tijd-bewuste zoekopdrachtuitbreiding voor het verfijnen van het zoekbereik. Experimentresultaten tonen aan dat deze optimalisaties zowel het geheugenherroepen als de daaropvolgende vraagbeantwoording op LongMemEval aanzienlijk verbeteren. Over het algemeen biedt onze studie waardevolle middelen en richtlijnen voor het verbeteren van de langetermijngeheugencapaciteiten van op GTM gebaseerde chatassistenten, waarmee de weg wordt vrijgemaakt naar meer gepersonaliseerde en betrouwbare conversatie-AI.
English
Recent large language model (LLM)-driven chat assistant systems have
integrated memory components to track user-assistant chat histories, enabling
more accurate and personalized responses. However, their long-term memory
capabilities in sustained interactions remain underexplored. This paper
introduces LongMemEval, a comprehensive benchmark designed to evaluate five
core long-term memory abilities of chat assistants: information extraction,
multi-session reasoning, temporal reasoning, knowledge updates, and abstention.
With 500 meticulously curated questions embedded within freely scalable
user-assistant chat histories, LongMemEval presents a significant challenge to
existing long-term memory systems, with commercial chat assistants and
long-context LLMs showing 30% accuracy drop on memorizing information across
sustained interactions. We then present a unified framework that breaks down
the long-term memory design into four design choices across the indexing,
retrieval, and reading stages. Built upon key experimental insights, we propose
several memory designs including session decomposition for optimizing value
granularity, fact-augmented key expansion for enhancing the index structure,
and time-aware query expansion for refining the search scope. Experiment
results show that these optimizations greatly improve both memory recall and
downstream question answering on LongMemEval. Overall, our study provides
valuable resources and guidance for advancing the long-term memory capabilities
of LLM-based chat assistants, paving the way toward more personalized and
reliable conversational AI.Summary
AI-Generated Summary