KnowMe-Bench: 평생 디지털 동반자를 위한 개인 이해 능력 벤치마크
KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions
January 8, 2026
저자: Tingyu Wu, Zhisheng Chen, Ziyan Weng, Shuhe Wang, Chenglong Li, Shuo Zhang, Sen Hu, Silin Wu, Qizhen Lan, Huacan Wang, Ronghao Chen
cs.AI
초록
기존의 장기 기억 벤치마크는 대부분 다중 회차 대화나 합성 사용자 기록을 사용하여, 검색 성능이 사람 이해의 불완전한 대리 지표가 되는 문제가 있습니다. 본 논문에서는 장편 자서전 서사를 기반으로 공개 가능한 벤치마크인 \BenchName을 제시합니다. 여기서는 행동, 맥락, 내적 사고가 안정적인 동기와 의사 결정 원리를 추론하기 위한 풍부한 증거를 제공합니다. \BenchName은 각 서사를 플래시백을 고려한 시간 기준 스트림으로 재구성하고, 사실적 회상, 주관적 상태 귀속, 원리 수준 추론에 걸친 증거 연계 질문을 통해 모델을 평가합니다. 다양한 서사 출처에서 검색 증강 시스템은 주로 사실적 정확도를 향상시키지만, 시간적 근거가 필요한 설명과 높은 수준의 추론에서는 오류가 지속되어 검색 이상의 메모리 메커니즘이 필요함을 강조합니다. 우리의 데이터는 KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}에서 확인할 수 있습니다.
English
Existing long-horizon memory benchmarks mostly use multi-turn dialogues or synthetic user histories, which makes retrieval performance an imperfect proxy for person understanding. We present \BenchName, a publicly releasable benchmark built from long-form autobiographical narratives, where actions, context, and inner thoughts provide dense evidence for inferring stable motivations and decision principles. \BenchName~reconstructs each narrative into a flashback-aware, time-anchored stream and evaluates models with evidence-linked questions spanning factual recall, subjective state attribution, and principle-level reasoning. Across diverse narrative sources, retrieval-augmented systems mainly improve factual accuracy, while errors persist on temporally grounded explanations and higher-level inferences, highlighting the need for memory mechanisms beyond retrieval. Our data is in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.