ChatPaper.aiChatPaper

HaluMem: エージェントのメモリシステムにおける幻覚の評価

HaluMem: Evaluating Hallucinations in Memory Systems of Agents

November 5, 2025
著者: Ding Chen, Simin Niu, Kehang Li, Peng Liu, Xiangping Zheng, Bo Tang, Xinchi Li, Feiyu Xiong, Zhiyu Li
cs.AI

要旨

メモリシステムは、大規模言語モデル(LLM)やAIエージェントなどのAIシステムが長期的な学習と持続的対話を実現するための重要な構成要素である。しかし、記憶の保存と検索の過程において、これらのシステムは頻繁に記憶の幻覚(Hallucination)現象、すなわち虚構化、誤り、矛盾、欠落などを示す。既存の記憶幻覚評価は主にエンドツーエンドの質問応答に依存しており、記憶システム内で幻覚が生じる操作段階を特定することが困難である。この問題に対処するため、我々はメモリシステムに特化した初の操作レベル幻覚評価ベンチマークであるHaluMem(Hallucination in Memory Benchmark)を提案する。HaluMemは、対話の異なる操作段階にわたる幻覚挙動を包括的に明らかにするため、3つの評価タスク(記憶抽出、記憶更新、記憶質問応答)を定義する。評価を支援するため、ユーザ中心的な多ターン人間-AI対話データセットであるHaluMem-MediumとHaluMem-Longを構築した。両データセットは約15kの記憶ポイントと3.5kの多種質問を含み、ユーザあたりの平均対話数は1.5kおよび2.6kターンに達し、コンテキスト長は1Mトークンを超える。これにより、異なるコンテキスト規模とタスク複雑性にわたる幻覚評価が可能となる。HaluMemに基づく実証研究により、既存のメモリシステムは抽出段階と更新段階で幻覚を生成・蓄積する傾向があり、これらが後続の質問応答段階に誤りを伝播させることが示された。今後の研究では、幻覚を体系的に抑制し記憶信頼性を向上させる、解釈可能で制約付きのメモリ操作メカニズムの開発に焦点を当てるべきである。
English
Memory systems are key components that enable AI systems such as LLMs and AI agents to achieve long-term learning and sustained interaction. However, during memory storage and retrieval, these systems frequently exhibit memory hallucinations, including fabrication, errors, conflicts, and omissions. Existing evaluations of memory hallucinations are primarily end-to-end question answering, which makes it difficult to localize the operational stage within the memory system where hallucinations arise. To address this, we introduce the Hallucination in Memory Benchmark (HaluMem), the first operation level hallucination evaluation benchmark tailored to memory systems. HaluMem defines three evaluation tasks (memory extraction, memory updating, and memory question answering) to comprehensively reveal hallucination behaviors across different operational stages of interaction. To support evaluation, we construct user-centric, multi-turn human-AI interaction datasets, HaluMem-Medium and HaluMem-Long. Both include about 15k memory points and 3.5k multi-type questions. The average dialogue length per user reaches 1.5k and 2.6k turns, with context lengths exceeding 1M tokens, enabling evaluation of hallucinations across different context scales and task complexities. Empirical studies based on HaluMem show that existing memory systems tend to generate and accumulate hallucinations during the extraction and updating stages, which subsequently propagate errors to the question answering stage. Future research should focus on developing interpretable and constrained memory operation mechanisms that systematically suppress hallucinations and improve memory reliability.
PDF923December 2, 2025