EviMem: Управляемый пробелами в свидетельствах итеративный поиск для долговременной диалоговой памяти

Аннотация

Долгосрочная разговорная память требует извлечения свидетельств, распределённых по множеству сеансов, однако однопроходный поиск не справляется с вопросами временного и многошагового характера. Существующие итеративные методы уточняют запросы на основе сгенерированного контента или сигналов на уровне документов, но ни один из них явно не диагностирует пробел в свидетельствах, а именно то, чего не хватает в накопленном наборе результатов поиска, оставляя уточнение запроса ненаправленным. Мы представляем EviMem, объединяющий IRIS (итеративный поиск с сигналами о недостаточности) — замкнутую рамочную структуру, которая выявляет пробелы в свидетельствах с помощью оценки достаточности, диагностирует недостающее и направляет целенаправленное уточнение запроса, — с LaceMem (многоуровневая архитектура для разговорной памяти свидетельств) — иерархией памяти от грубого к точному, поддерживающей детальную диагностику пробелов. На наборе данных LoCoMo EviMem улучшает точность оценки Judge Accuracy по сравнению с MIRIX на временных (с 73,3% до 81,6%) и многошаговых (с 65,9% до 85,2%) вопросах при задержке в 4,5 раза меньшей. Код: https://github.com/AIGeeksGroup/EviMem.

English

Long-term conversational memory requires retrieving evidence scattered across multiple sessions, yet single-pass retrieval fails on temporal and multi-hop questions. Existing iterative methods refine queries via generated content or document-level signals, but none explicitly diagnoses the evidence gap, namely what is missing from the accumulated retrieval set, leaving query refinement untargeted. We present EviMem, combining IRIS (Iterative Retrieval via Insufficiency Signals), a closed-loop framework that detects evidence gaps through sufficiency evaluation, diagnoses what is missing, and drives targeted query refinement, with LaceMem (Layered Architecture for Conversational Evidence Memory), a coarse-to-fine memory hierarchy supporting fine-grained gap diagnosis. On LoCoMo, EviMem improves Judge Accuracy over MIRIX on temporal (73.3% to 81.6%) and multi-hop (65.9% to 85.2%) questions at 4.5x lower latency. Code: https://github.com/AIGeeksGroup/EviMem.

EviMem: Управляемый пробелами в свидетельствах итеративный поиск для долговременной диалоговой памяти

EviMem: Evidence-Gap-Driven Iterative Retrieval for Long-Term Conversational Memory

Аннотация

Support