EviMem: 증거 격차 기반 반복 검색을 통한 장기 대화 기억

초록

장기 대화형 메모리는 여러 세션에 걸쳐 흩어져 있는 증거를 검색해야 하지만, 단일 패스 검색은 시간적 및 다중 홉 질문에서 실패한다. 기존의 반복적 방법들은 생성된 콘텐츠나 문서 수준 신호를 통해 질의를 정제하지만, 누적된 검색 집합에서 무엇이 누락되었는지, 즉 증거 격차를 명시적으로 진단하지 않아 질의 정제가 목표 지향적이지 못하다. 우리는 증거 격차를 감지하기 위해 충분성 평가를 수행하고, 무엇이 누락되었는지 진단하며, 목표 지향적 질의 정제를 유도하는 폐쇄 루프 프레임워크인 IRIS(Iterative Retrieval via Insufficiency Signals)와 세밀한 격차 진단을 지원하는 조대-세밀 메모리 계층 구조인 LaceMem(Layered Architecture for Conversational Evidence Memory)을 결합한 EviMem을 제시한다. LoCoMo에서 EviMem은 MIRIX 대비 Judge Accuracy를 시간적 질문(73.3%에서 81.6%)과 다중 홉 질문(65.9%에서 85.2%)에서 향상시키면서 4.5배 낮은 지연 시간을 달성한다. 코드: https://github.com/AIGeeksGroup/EviMem.

English

Long-term conversational memory requires retrieving evidence scattered across multiple sessions, yet single-pass retrieval fails on temporal and multi-hop questions. Existing iterative methods refine queries via generated content or document-level signals, but none explicitly diagnoses the evidence gap, namely what is missing from the accumulated retrieval set, leaving query refinement untargeted. We present EviMem, combining IRIS (Iterative Retrieval via Insufficiency Signals), a closed-loop framework that detects evidence gaps through sufficiency evaluation, diagnoses what is missing, and drives targeted query refinement, with LaceMem (Layered Architecture for Conversational Evidence Memory), a coarse-to-fine memory hierarchy supporting fine-grained gap diagnosis. On LoCoMo, EviMem improves Judge Accuracy over MIRIX on temporal (73.3% to 81.6%) and multi-hop (65.9% to 85.2%) questions at 4.5x lower latency. Code: https://github.com/AIGeeksGroup/EviMem.

EviMem: 증거 격차 기반 반복 검색을 통한 장기 대화 기억

EviMem: Evidence-Gap-Driven Iterative Retrieval for Long-Term Conversational Memory

초록

Support