EviMem : Récupération itérative guidée par les lacunes de preuves pour la mémoire conversationnelle à long terme

Résumé

La mémoire conversationnelle à long terme nécessite de récupérer des preuves dispersées sur plusieurs sessions, mais la récupération en un seul passage échoue sur les questions temporelles et multi-sauts. Les méthodes itératives existantes affinent les requêtes via du contenu généré ou des signaux au niveau des documents, mais aucune ne diagnostique explicitement le manque de preuves, c’est-à-dire ce qui manque dans l’ensemble de récupération accumulé, laissant l’affinement des requêtes non ciblé. Nous présentons EviMem, combinant IRIS (Récupération Itérative via Signaux d’Insuffisance), un cadre en boucle fermée qui détecte les lacunes de preuves par une évaluation de suffisance, diagnostique ce qui manque et pilote un affinement ciblé des requêtes, avec LaceMem (Architecture en Couches pour la Mémoire de Preuves Conversationnelle), une hiérarchie de mémoire du grossier au fin soutenant un diagnostic précis des lacunes. Sur LoCoMo, EviMem améliore la précision du juge par rapport à MIRIX sur les questions temporelles (de 73,3 % à 81,6 %) et multi-sauts (de 65,9 % à 85,2 %) avec une latence 4,5 fois inférieure. Code : https://github.com/AIGeeksGroup/EviMem.

English

Long-term conversational memory requires retrieving evidence scattered across multiple sessions, yet single-pass retrieval fails on temporal and multi-hop questions. Existing iterative methods refine queries via generated content or document-level signals, but none explicitly diagnoses the evidence gap, namely what is missing from the accumulated retrieval set, leaving query refinement untargeted. We present EviMem, combining IRIS (Iterative Retrieval via Insufficiency Signals), a closed-loop framework that detects evidence gaps through sufficiency evaluation, diagnoses what is missing, and drives targeted query refinement, with LaceMem (Layered Architecture for Conversational Evidence Memory), a coarse-to-fine memory hierarchy supporting fine-grained gap diagnosis. On LoCoMo, EviMem improves Judge Accuracy over MIRIX on temporal (73.3% to 81.6%) and multi-hop (65.9% to 85.2%) questions at 4.5x lower latency. Code: https://github.com/AIGeeksGroup/EviMem.

EviMem : Récupération itérative guidée par les lacunes de preuves pour la mémoire conversationnelle à long terme

EviMem: Evidence-Gap-Driven Iterative Retrieval for Long-Term Conversational Memory

Résumé

Support