ChatPaper.aiChatPaper

LongMemEval: Bewertung von Chat-Assistenten hinsichtlich langfristiger interaktiver Erinnerung

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

October 14, 2024
Autoren: Di Wu, Hongwei Wang, Wenhao Yu, Yuwei Zhang, Kai-Wei Chang, Dong Yu
cs.AI

Zusammenfassung

Jüngste Chat-Assistenzsysteme, die von großen Sprachmodellen (LLM) angetrieben werden, haben Gedächtniskomponenten integriert, um Benutzer-Assistenten-Chatverläufe zu verfolgen, was genauere und personalisierte Antworten ermöglicht. Die langfristigen Gedächtnisfähigkeiten in anhaltenden Interaktionen bleiben jedoch noch unerforscht. Dieses Papier stellt LongMemEval vor, einen umfassenden Benchmark, der entwickelt wurde, um fünf Kernlangzeitgedächtnisfähigkeiten von Chat-Assistenten zu bewerten: Informationsextraktion, Mehrsitzungs-Argumentation, zeitliche Argumentation, Wissensaktualisierungen und Enthaltung. Mit 500 sorgfältig ausgewählten Fragen, die in frei skalierbare Benutzer-Assistenten-Chatverläufe eingebettet sind, stellt LongMemEval eine bedeutende Herausforderung für bestehende Langzeitgedächtnissysteme dar, wobei kommerzielle Chat-Assistenten und LLMs mit langem Kontext eine 30%ige Genauigkeitsabnahme beim Memorieren von Informationen über anhaltende Interaktionen zeigen. Anschließend präsentieren wir ein einheitliches Framework, das das Langzeitgedächtnisdesign in vier Designentscheidungen über die Indizierung, Abruf- und Lesestufen aufteilt. Basierend auf wichtigen experimentellen Erkenntnissen schlagen wir verschiedene Gedächtnisdesigns vor, darunter Sitzungszerlegung zur Optimierung der Wertgranularität, faktaugmentierte Schlüsselerweiterung zur Verbesserung der Indexstruktur und zeitbewusste Abfrageerweiterung zur Verfeinerung des Suchbereichs. Die Experimentresultate zeigen, dass diese Optimierungen sowohl die Gedächtnisabruf als auch die nachgelagerte Fragebeantwortung bei LongMemEval erheblich verbessern. Insgesamt bietet unsere Studie wertvolle Ressourcen und Anleitungen zur Weiterentwicklung der Langzeitgedächtnisfähigkeiten von LLM-basierten Chat-Assistenten und ebnet den Weg für eine personalisiertere und zuverlässigere Konversations-KI.
English
Recent large language model (LLM)-driven chat assistant systems have integrated memory components to track user-assistant chat histories, enabling more accurate and personalized responses. However, their long-term memory capabilities in sustained interactions remain underexplored. This paper introduces LongMemEval, a comprehensive benchmark designed to evaluate five core long-term memory abilities of chat assistants: information extraction, multi-session reasoning, temporal reasoning, knowledge updates, and abstention. With 500 meticulously curated questions embedded within freely scalable user-assistant chat histories, LongMemEval presents a significant challenge to existing long-term memory systems, with commercial chat assistants and long-context LLMs showing 30% accuracy drop on memorizing information across sustained interactions. We then present a unified framework that breaks down the long-term memory design into four design choices across the indexing, retrieval, and reading stages. Built upon key experimental insights, we propose several memory designs including session decomposition for optimizing value granularity, fact-augmented key expansion for enhancing the index structure, and time-aware query expansion for refining the search scope. Experiment results show that these optimizations greatly improve both memory recall and downstream question answering on LongMemEval. Overall, our study provides valuable resources and guidance for advancing the long-term memory capabilities of LLM-based chat assistants, paving the way toward more personalized and reliable conversational AI.

Summary

AI-Generated Summary

PDF122November 16, 2024