KnowMe-Bench: Benchmarking des Personenverständnisses für lebenslange digitale Begleiter
KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions
January 8, 2026
papers.authors: Tingyu Wu, Zhisheng Chen, Ziyan Weng, Shuhe Wang, Chenglong Li, Shuo Zhang, Sen Hu, Silin Wu, Qizhen Lan, Huacan Wang, Ronghao Chen
cs.AI
papers.abstract
Bestehende Benchmarks für Langzeitgedächtnis verwenden meist mehrteilige Dialoge oder synthetische Nutzerverläufe, was die Retrieval-Leistung zu einem unvollkommenen Indikator für das Personenverständnis macht. Wir stellen \BenchName vor, einen öffentlich verfügbaren Benchmark, der auf langen autobiografischen Erzählungen basiert, in denen Handlungen, Kontext und innere Gedanken dichte Beweise für die Ableitung stabiler Motivationen und Entscheidungsprinzipien liefern. \BenchName rekonstruiert jede Erzählung in einen rückblendenbewussten, zeitverankerten Strom und evaluiert Modelle mit evidenzverknüpften Fragen, die faktisches Erinnern, subjektive Zustandsattribution und prinzipienbasiertes Schlussfolgern abdecken. Über verschiedene narrative Quellen hinweg verbessern retrieval-gestützte Systeme hauptsächlich die faktische Genauigkeit, während Fehler bei zeitlich verankerten Erklärungen und höherwertigen Inferenzen bestehen bleiben – was den Bedarf an Gedächtnismechanismen jenseits von Retrieval unterstreicht. Unsere Daten sind unter KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench} verfügbar.
English
Existing long-horizon memory benchmarks mostly use multi-turn dialogues or synthetic user histories, which makes retrieval performance an imperfect proxy for person understanding. We present \BenchName, a publicly releasable benchmark built from long-form autobiographical narratives, where actions, context, and inner thoughts provide dense evidence for inferring stable motivations and decision principles. \BenchName~reconstructs each narrative into a flashback-aware, time-anchored stream and evaluates models with evidence-linked questions spanning factual recall, subjective state attribution, and principle-level reasoning. Across diverse narrative sources, retrieval-augmented systems mainly improve factual accuracy, while errors persist on temporally grounded explanations and higher-level inferences, highlighting the need for memory mechanisms beyond retrieval. Our data is in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.