MemTrace: Fehlerverfolgung und -zuordnung in Speichersystemen großer Sprachmodelle

Zusammenfassung

Gedächtnis ist essenziell, um große Sprachmodelle zu langfristigen Schlussfolgerungen zu befähigen, jedoch bleiben bestehende Gedächtnissysteme unzuverlässig und schwer zu debuggen. Die Rückverfolgung der dynamischen Entwicklung des Gedächtnisses ist entscheidend, um zu verstehen, wie Informationen im Laufe der Zeit synthetisiert, verbreitet oder verfälscht werden. In dieser Arbeit untersuchen wir das neue Problem der Fehlerverfolgung und -zuordnung in LLM-Gedächtnissystemen. Wir schlagen ein neuartiges Framework vor, das Gedächtnispipelines in ausführbare Gedächtnisevolutionsgraphen umwandelt und so eine feinkörnige Verfolgung des operationellen Informationsflusses ermöglicht. Anschließend konstruieren wir MemTraceBench, einen Benchmark, der aus repräsentativen Gedächtnissystemen wie Long-Context, RAG, Mem0 und EverMemOS zusammengestellt wurde, um Gedächtnisfehlermodi systematisch zu untersuchen. Darüber hinaus führen wir eine automatische Zuweisungsmethode ein, die iterativ Operationsuntergraphen verfolgt, um die Ursache eines jeden Fehlerfalls zu identifizieren. Unsere Analyse zeigt, dass Gedächtnisfehler systematisch sind und von operationellen Problemen wie Informationsverlust und Abruf-Fehlausrichtung herrühren. Entscheidend ist, dass wir diese feinkörnigen Zuweisungssignale nutzen, um nachgelagerte Prompt-Optimierungen zu steuern, wodurch ein geschlossenes System entsteht, das Fehler automatisch korrigiert und die Endaufgabenleistung um bis zu 7,62 % steigert. Der Code wird unter https://github.com/zjunlp/MemTrace veröffentlicht.

English

Memory is essential for enabling large language models to support long-horizon reasoning, yet existing memory systems remain unreliable and difficult to debug. Tracing memory's dynamic evolution is crucial to understand how information is synthesized, propagated, or corrupted over time. In this work, we study the new problem of error tracing and attribution in LLM memory systems. We propose a novel framework that transforms memory pipelines into executable memory evolution graphs, enabling fine-grained tracing of operational information flow. We then construct MemTraceBench, a benchmark collected from representative memory systems such as Long-Context, RAG, Mem0, and EverMemOS, to systematically study memory failure modes. We further introduce an automatic attribution method that iteratively traces operation subgraphs to pinpoint the root cause of any failed case. Our analysis reveals that memory failures are systematic, stemming from operation-level issues like information loss and retrieval misalignment. Crucially, we leverage these fine-grained attribution signals to guide downstream prompt optimization, establishing a closed-loop system that automatically corrects faults and boosts end-task performance by up to 7.62%. Code will be released at https://github.com/zjunlp/MemTrace.