EviMem: Evidenzlücken-getriebenes iteratives Retrieval für Langzeit-Konversationsgedächtnis
EviMem: Evidence-Gap-Driven Iterative Retrieval for Long-Term Conversational Memory
April 30, 2026
Autoren: Yuyang Li, Yime He, Zeyu Zhang, Dong Gong
cs.AI
Zusammenfassung
Langfristiges Konversationsgedächtnis erfordert das Abrufen von über mehrere Sitzungen verstreuten Belegen, doch der einmalige Abruf versagt bei temporalen und Multi-Hop-Fragen. Bestehende iterative Methoden verfeinern Abfragen mittels generierter Inhalte oder Signalen auf Dokumentebene, aber keine diagnostiziert explizit die Evidenzlücke, nämlich was im akkumulierten Abrufsatz fehlt, und lässt die Abfrageverfeinerung ungezielt. Wir präsentieren EviMem, das IRIS (Iterative Retrieval via Insufficiency Signals), ein geschlossenes Rahmenwerk, das Evidenzlücken durch Hinlänglichkeitsbewertung erkennt, diagnostiziert, was fehlt, und gezielte Abfrageverfeinerung antreibt, mit LaceMem (Layered Architecture for Conversational Evidence Memory), einer grob-zu-fein Gedächtnishierarchie, die eine feinkörnige Lückendiagnose unterstützt. Auf LoCoMo verbessert EviMem die Bewertungsgenauigkeit gegenüber MIRIX bei temporalen (73,3 % auf 81,6 %) und Multi-Hop-Fragen (65,9 % auf 85,2 %) bei 4,5-fach geringerer Latenz. Code: https://github.com/AIGeeksGroup/EviMem.
English
Long-term conversational memory requires retrieving evidence scattered across multiple sessions, yet single-pass retrieval fails on temporal and multi-hop questions. Existing iterative methods refine queries via generated content or document-level signals, but none explicitly diagnoses the evidence gap, namely what is missing from the accumulated retrieval set, leaving query refinement untargeted. We present EviMem, combining IRIS (Iterative Retrieval via Insufficiency Signals), a closed-loop framework that detects evidence gaps through sufficiency evaluation, diagnoses what is missing, and drives targeted query refinement, with LaceMem (Layered Architecture for Conversational Evidence Memory), a coarse-to-fine memory hierarchy supporting fine-grained gap diagnosis. On LoCoMo, EviMem improves Judge Accuracy over MIRIX on temporal (73.3% to 81.6%) and multi-hop (65.9% to 85.2%) questions at 4.5x lower latency. Code: https://github.com/AIGeeksGroup/EviMem.