HaluMem: Bewertung von Halluzinationen in Gedächtnissystemen von Agenten
HaluMem: Evaluating Hallucinations in Memory Systems of Agents
November 5, 2025
papers.authors: Ding Chen, Simin Niu, Kehang Li, Peng Liu, Xiangping Zheng, Bo Tang, Xinchi Li, Feiyu Xiong, Zhiyu Li
cs.AI
papers.abstract
Gedächtnissysteme sind Schlüsselkomponenten, die KI-Systemen wie LLMs und KI-Agenten langfristiges Lernen und nachhaltige Interaktion ermöglichen. Allerdings zeigen diese Systeme während der Gedächtnisspeicherung und -abfrage häufig Gedächtnishalluzinationen, einschließlich Erfindungen, Fehlern, Widersprüchen und Auslassungen. Bisherige Bewertungen von Gedächtnishalluzinationen erfolgen primär über End-to-End-Fragebeantwortung, was es schwierig macht, den operationalen Stadium innerhalb des Gedächtnissystems zu lokalisieren, in dem Halluzinationen entstehen. Um dies zu adressieren, führen wir den Hallucination in Memory Benchmark (HaluMem) ein, den ersten Halluzinationsbewertungsmaßstab auf Operationsebene, der speziell für Gedächtnissysteme entwickelt wurde. HaluMem definiert drei Bewertungsaufgaben (Gedächtnisextraktion, Gedächtnisaktualisierung und Gedächtnisfragebeantwortung), um Halluzinationsverhalten über verschiedene Interaktionsstadien hinweg umfassend aufzuzeigen. Zur Unterstützung der Bewertung erstellen wir nutzerzentrierte, mehrschrittige Mensch-KI-Interaktionsdatensätze, HaluMem-Medium und HaluMem-Long. Beide umfassen etwa 15.000 Gedächtnispunkte und 3.500 Mehrtyp-Fragen. Die durchschnittliche Dialoglänge pro Nutzer erreicht 1.500 bzw. 2.600 Turns, mit Kontextlängen von über 1 Million Tokens, was die Bewertung von Halluzinationen über verschiedene Kontextskalen und Aufgabenkomplexitäten hinweg ermöglicht. Empirische Studien auf Basis von HaluMem zeigen, dass bestehende Gedächtnissysteme dazu neigen, Halluzinationen während der Extraktions- und Aktualisierungsphasen zu generieren und anzuhäufen, die anschließend Fehler in die Fragebeantwortungsphase weiterleiten. Zukünftige Forschung sollte sich auf die Entwicklung interpretierbarer und eingeschränkter Gedächtnisoperationsmechanismen konzentrieren, die Halluzinationen systematisch unterdrücken und die Gedächtniszuverlässigkeit verbessern.
English
Memory systems are key components that enable AI systems such as LLMs and AI
agents to achieve long-term learning and sustained interaction. However, during
memory storage and retrieval, these systems frequently exhibit memory
hallucinations, including fabrication, errors, conflicts, and omissions.
Existing evaluations of memory hallucinations are primarily end-to-end question
answering, which makes it difficult to localize the operational stage within
the memory system where hallucinations arise. To address this, we introduce the
Hallucination in Memory Benchmark (HaluMem), the first operation level
hallucination evaluation benchmark tailored to memory systems. HaluMem defines
three evaluation tasks (memory extraction, memory updating, and memory question
answering) to comprehensively reveal hallucination behaviors across different
operational stages of interaction. To support evaluation, we construct
user-centric, multi-turn human-AI interaction datasets, HaluMem-Medium and
HaluMem-Long. Both include about 15k memory points and 3.5k multi-type
questions. The average dialogue length per user reaches 1.5k and 2.6k turns,
with context lengths exceeding 1M tokens, enabling evaluation of hallucinations
across different context scales and task complexities. Empirical studies based
on HaluMem show that existing memory systems tend to generate and accumulate
hallucinations during the extraction and updating stages, which subsequently
propagate errors to the question answering stage. Future research should focus
on developing interpretable and constrained memory operation mechanisms that
systematically suppress hallucinations and improve memory reliability.