EviMem: Recuperación iterativa guiada por brechas de evidencia para la memoria conversacional a largo plazo

Resumen

La memoria conversacional a largo plazo requiere recuperar evidencia dispersa a través de múltiples sesiones, pero la recuperación de una sola pasada falla en preguntas temporales y de múltiples saltos. Los métodos iterativos existentes refinan las consultas mediante contenido generado o señales a nivel de documento, pero ninguno diagnostica explícitamente la brecha de evidencia, es decir, lo que falta en el conjunto de recuperación acumulado, dejando el refinamiento de consultas sin dirección. Presentamos EviMem, que combina IRIS (Recuperación Iterativa mediante Señales de Insuficiencia), un marco de bucle cerrado que detecta brechas de evidencia a través de la evaluación de suficiencia, diagnostica lo que falta y dirige el refinamiento de consultas específico, con LaceMem (Arquitectura en Capas para Memoria de Evidencia Conversacional), una jerarquía de memoria de lo general a lo específico que permite un diagnóstico detallado de brechas. En LoCoMo, EviMem mejora la Precisión del Juez frente a MIRIX en preguntas temporales (del 73,3% al 81,6%) y de múltiples saltos (del 65,9% al 85,2%) con una latencia 4,5 veces menor. Código: https://github.com/AIGeeksGroup/EviMem.

English

Long-term conversational memory requires retrieving evidence scattered across multiple sessions, yet single-pass retrieval fails on temporal and multi-hop questions. Existing iterative methods refine queries via generated content or document-level signals, but none explicitly diagnoses the evidence gap, namely what is missing from the accumulated retrieval set, leaving query refinement untargeted. We present EviMem, combining IRIS (Iterative Retrieval via Insufficiency Signals), a closed-loop framework that detects evidence gaps through sufficiency evaluation, diagnoses what is missing, and drives targeted query refinement, with LaceMem (Layered Architecture for Conversational Evidence Memory), a coarse-to-fine memory hierarchy supporting fine-grained gap diagnosis. On LoCoMo, EviMem improves Judge Accuracy over MIRIX on temporal (73.3% to 81.6%) and multi-hop (65.9% to 85.2%) questions at 4.5x lower latency. Code: https://github.com/AIGeeksGroup/EviMem.

EviMem: Recuperación iterativa guiada por brechas de evidencia para la memoria conversacional a largo plazo

EviMem: Evidence-Gap-Driven Iterative Retrieval for Long-Term Conversational Memory

Resumen

Support