ChatPaper.aiChatPaper

HaluMem: 에이전트 메모리 시스템의 환각 현상 평가

HaluMem: Evaluating Hallucinations in Memory Systems of Agents

November 5, 2025
저자: Ding Chen, Simin Niu, Kehang Li, Peng Liu, Xiangping Zheng, Bo Tang, Xinchi Li, Feiyu Xiong, Zhiyu Li
cs.AI

초록

메모리 시스템은 LLM 및 AI 에이전트와 같은 AI 시스템이 장기적 학습과 지속적 상호작용을 가능하게 하는 핵심 구성 요소입니다. 그러나 메모리 저장 및 검색 과정에서 이러한 시스템은 허구적 내용, 오류, 충돌, 생략을 포함한 메모리 환각 현상을 빈번하게 보여줍니다. 기존의 메모리 환각 평가는 주로 종단 간 질의응답 방식으로 이루어져, 메모리 시스템 내에서 환각이 발생하는 운영 단계를 정확히 파악하기 어렵습니다. 이를 해결하기 위해 우리는 메모리 시스템에 특화된 최초의 운영 수준 환각 평가 벤치마크인 HaluMem(Hallucination in Memory Benchmark)을 소개합니다. HaluMem은 세 가지 평가 과목(메모리 추출, 메모리 갱신, 메모리 질의응답)을 정의하여 상호작용의 다양한 운영 단계에 걸친 환각 현상을 포괄적으로 드러냅니다. 평가를 지원하기 위해 우리는 사용자 중심의 다중 턴 인간-AI 상호작용 데이터셋인 HaluMem-Medium과 HaluMem-Long을 구축했습니다. 두 데이터셋은 약 15,000개의 메모리 포인트와 3,500개의 다양한 유형의 질문을 포함합니다. 사용자당 평균 대화 길이는 각각 1,500턴과 2,600턴에 달하며, 컨텍스트 길이는 100만 토큰을 초과하여 다양한 컨텍스트 규모와 과제 복잡도에서의 환각 현상을 평가할 수 있습니다. HaluMem을 기반으로 한 실증 연구 결과, 기존 메모리 시스템은 추출 및 갱신 단계에서 환각을 생성하고 축적하는 경향이 있으며, 이로 인해 오류가 질의응답 단계로 전파됨을 확인했습니다. 향후 연구는 환각을 체계적으로 억제하고 메모리 신뢰성을 향상시키기 위한 해석 가능하고 제약이 있는 메모리 운영 메커니즘 개발에 집중해야 할 것입니다.
English
Memory systems are key components that enable AI systems such as LLMs and AI agents to achieve long-term learning and sustained interaction. However, during memory storage and retrieval, these systems frequently exhibit memory hallucinations, including fabrication, errors, conflicts, and omissions. Existing evaluations of memory hallucinations are primarily end-to-end question answering, which makes it difficult to localize the operational stage within the memory system where hallucinations arise. To address this, we introduce the Hallucination in Memory Benchmark (HaluMem), the first operation level hallucination evaluation benchmark tailored to memory systems. HaluMem defines three evaluation tasks (memory extraction, memory updating, and memory question answering) to comprehensively reveal hallucination behaviors across different operational stages of interaction. To support evaluation, we construct user-centric, multi-turn human-AI interaction datasets, HaluMem-Medium and HaluMem-Long. Both include about 15k memory points and 3.5k multi-type questions. The average dialogue length per user reaches 1.5k and 2.6k turns, with context lengths exceeding 1M tokens, enabling evaluation of hallucinations across different context scales and task complexities. Empirical studies based on HaluMem show that existing memory systems tend to generate and accumulate hallucinations during the extraction and updating stages, which subsequently propagate errors to the question answering stage. Future research should focus on developing interpretable and constrained memory operation mechanisms that systematically suppress hallucinations and improve memory reliability.
PDF923December 2, 2025