KnowMe-Bench:生涯にわたるデジタルコンパニオンのための人物理解ベンチマーク
KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions
January 8, 2026
著者: Tingyu Wu, Zhisheng Chen, Ziyan Weng, Shuhe Wang, Chenglong Li, Shuo Zhang, Sen Hu, Silin Wu, Qizhen Lan, Huacan Wang, Ronghao Chen
cs.AI
要旨
既存の長期的記憶ベンチマークの多くは、複数ターンの対話や合成ユーザー履歴を使用しており、検索性能が人物理解の不完全な代理指標となっています。本論文では、長編の自伝的ナラティブから構築した公開可能なベンチマーク「\BenchName」を提案します。ここでは、行動、文脈、内面的思考が、安定した動機や意思決定原理を推論するための豊富な証拠を提供します。「\BenchName」は各ナラティブを、フラッシュバックを考慮した時間軸に沿ったストリームとして再構築し、事実の想起、主観的状态の帰属、原理レベルの推論にまたがる証拠連携型の質問でモデルを評価します。多様なナラティブソースにおいて、検索拡張システムは主に事実の正確性を向上させる一方で、時間的根拠に基づく説明や高次推論ではエラーが持続し、検索を超えた記憶メカニズムの必要性が浮き彫りになります。データはKnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}で公開されています。
English
Existing long-horizon memory benchmarks mostly use multi-turn dialogues or synthetic user histories, which makes retrieval performance an imperfect proxy for person understanding. We present \BenchName, a publicly releasable benchmark built from long-form autobiographical narratives, where actions, context, and inner thoughts provide dense evidence for inferring stable motivations and decision principles. \BenchName~reconstructs each narrative into a flashback-aware, time-anchored stream and evaluates models with evidence-linked questions spanning factual recall, subjective state attribution, and principle-level reasoning. Across diverse narrative sources, retrieval-augmented systems mainly improve factual accuracy, while errors persist on temporally grounded explanations and higher-level inferences, highlighting the need for memory mechanisms beyond retrieval. Our data is in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.