ChatPaper.aiChatPaper

LongMemEval: Сравнение чат-ассистентов по долгосрочной интерактивной памяти

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

October 14, 2024
Авторы: Di Wu, Hongwei Wang, Wenhao Yu, Yuwei Zhang, Kai-Wei Chang, Dong Yu
cs.AI

Аннотация

Недавние системы чат-ассистентов, основанные на крупных языковых моделях (КЯМ), интегрировали компоненты памяти для отслеживания истории чатов между пользователем и ассистентом, обеспечивая более точные и персонализированные ответы. Однако их возможности долгосрочной памяти в продолжительных взаимодействиях остаются недостаточно изученными. В данной статье представлен LongMemEval, комплексный бенчмарк, разработанный для оценки пяти основных способностей долгосрочной памяти чат-ассистентов: извлечение информации, многосессионное рассуждение, временное рассуждение, обновление знаний и воздержание. С 500 тщательно подобранными вопросами, встроенными в масштабируемые истории чатов между пользователем и ассистентом, LongMemEval представляет собой значительное испытание для существующих систем долгосрочной памяти, приводя к снижению точности на 30% у коммерческих чат-ассистентов и КЯМ с долгим контекстом при запоминании информации в продолжительных взаимодействиях. Затем мы представляем единый фреймворк, который разбивает дизайн долгосрочной памяти на четыре выбора дизайна на этапах индексации, извлечения и чтения. Основываясь на ключевых экспериментальных выводах, мы предлагаем несколько дизайнов памяти, включая декомпозицию сессии для оптимизации уровня значимости, расширение ключей с фактами для улучшения структуры индекса и расширение запроса с учетом времени для уточнения области поиска. Результаты экспериментов показывают, что эти оптимизации значительно улучшают как воспоминание памяти, так и ответы на вопросы на LongMemEval. В целом, наше исследование предоставляет ценные ресурсы и руководство для развития возможностей долгосрочной памяти на основе КЯМ чат-ассистентов, открывая путь к более персонализированному и надежному разговорному ИИ.
English
Recent large language model (LLM)-driven chat assistant systems have integrated memory components to track user-assistant chat histories, enabling more accurate and personalized responses. However, their long-term memory capabilities in sustained interactions remain underexplored. This paper introduces LongMemEval, a comprehensive benchmark designed to evaluate five core long-term memory abilities of chat assistants: information extraction, multi-session reasoning, temporal reasoning, knowledge updates, and abstention. With 500 meticulously curated questions embedded within freely scalable user-assistant chat histories, LongMemEval presents a significant challenge to existing long-term memory systems, with commercial chat assistants and long-context LLMs showing 30% accuracy drop on memorizing information across sustained interactions. We then present a unified framework that breaks down the long-term memory design into four design choices across the indexing, retrieval, and reading stages. Built upon key experimental insights, we propose several memory designs including session decomposition for optimizing value granularity, fact-augmented key expansion for enhancing the index structure, and time-aware query expansion for refining the search scope. Experiment results show that these optimizations greatly improve both memory recall and downstream question answering on LongMemEval. Overall, our study provides valuable resources and guidance for advancing the long-term memory capabilities of LLM-based chat assistants, paving the way toward more personalized and reliable conversational AI.

Summary

AI-Generated Summary

PDF122November 16, 2024