HaluMem: Bewertung von Halluzinationen in Gedächtnissystemen von Agenten

papers.abstract

Gedächtnissysteme sind Schlüsselkomponenten, die KI-Systemen wie LLMs und KI-Agenten langfristiges Lernen und nachhaltige Interaktion ermöglichen. Allerdings zeigen diese Systeme während der Gedächtnisspeicherung und -abfrage häufig Gedächtnishalluzinationen, einschließlich Erfindungen, Fehlern, Widersprüchen und Auslassungen. Bisherige Bewertungen von Gedächtnishalluzinationen erfolgen primär über End-to-End-Fragebeantwortung, was es schwierig macht, den operationalen Stadium innerhalb des Gedächtnissystems zu lokalisieren, in dem Halluzinationen entstehen. Um dies zu adressieren, führen wir den Hallucination in Memory Benchmark (HaluMem) ein, den ersten Halluzinationsbewertungsmaßstab auf Operationsebene, der speziell für Gedächtnissysteme entwickelt wurde. HaluMem definiert drei Bewertungsaufgaben (Gedächtnisextraktion, Gedächtnisaktualisierung und Gedächtnisfragebeantwortung), um Halluzinationsverhalten über verschiedene Interaktionsstadien hinweg umfassend aufzuzeigen. Zur Unterstützung der Bewertung erstellen wir nutzerzentrierte, mehrschrittige Mensch-KI-Interaktionsdatensätze, HaluMem-Medium und HaluMem-Long. Beide umfassen etwa 15.000 Gedächtnispunkte und 3.500 Mehrtyp-Fragen. Die durchschnittliche Dialoglänge pro Nutzer erreicht 1.500 bzw. 2.600 Turns, mit Kontextlängen von über 1 Million Tokens, was die Bewertung von Halluzinationen über verschiedene Kontextskalen und Aufgabenkomplexitäten hinweg ermöglicht. Empirische Studien auf Basis von HaluMem zeigen, dass bestehende Gedächtnissysteme dazu neigen, Halluzinationen während der Extraktions- und Aktualisierungsphasen zu generieren und anzuhäufen, die anschließend Fehler in die Fragebeantwortungsphase weiterleiten. Zukünftige Forschung sollte sich auf die Entwicklung interpretierbarer und eingeschränkter Gedächtnisoperationsmechanismen konzentrieren, die Halluzinationen systematisch unterdrücken und die Gedächtniszuverlässigkeit verbessern.

English

Memory systems are key components that enable AI systems such as LLMs and AI agents to achieve long-term learning and sustained interaction. However, during memory storage and retrieval, these systems frequently exhibit memory hallucinations, including fabrication, errors, conflicts, and omissions. Existing evaluations of memory hallucinations are primarily end-to-end question answering, which makes it difficult to localize the operational stage within the memory system where hallucinations arise. To address this, we introduce the Hallucination in Memory Benchmark (HaluMem), the first operation level hallucination evaluation benchmark tailored to memory systems. HaluMem defines three evaluation tasks (memory extraction, memory updating, and memory question answering) to comprehensively reveal hallucination behaviors across different operational stages of interaction. To support evaluation, we construct user-centric, multi-turn human-AI interaction datasets, HaluMem-Medium and HaluMem-Long. Both include about 15k memory points and 3.5k multi-type questions. The average dialogue length per user reaches 1.5k and 2.6k turns, with context lengths exceeding 1M tokens, enabling evaluation of hallucinations across different context scales and task complexities. Empirical studies based on HaluMem show that existing memory systems tend to generate and accumulate hallucinations during the extraction and updating stages, which subsequently propagate errors to the question answering stage. Future research should focus on developing interpretable and constrained memory operation mechanisms that systematically suppress hallucinations and improve memory reliability.

HaluMem: Bewertung von Halluzinationen in Gedächtnissystemen von Agenten

HaluMem: Evaluating Hallucinations in Memory Systems of Agents

papers.abstract

Support