ChatPaper.aiChatPaper

KnowMe-Bench: Een benchmark voor persoonlijkheidsbegrip bij levenslange digitale metgezellen

KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions

January 8, 2026
Auteurs: Tingyu Wu, Zhisheng Chen, Ziyan Weng, Shuhe Wang, Chenglong Li, Shuo Zhang, Sen Hu, Silin Wu, Qizhen Lan, Huacan Wang, Ronghao Chen
cs.AI

Samenvatting

Bestaande benchmarks voor langetermijngeheugen maken meestal gebruik van meerdere gespreksronden of synthetische gebruikersgeschiedenissen, waardoor retrievaliditeit een onvolmaakte maatstaf is voor persoonlijkheidsbegrip. Wij presenteren \BenchName, een openbaar beschikbare benchmark opgebouwd uit uitgebreide autobiografische verhalen, waarin handelingen, context en innerlijke gedachten rijke aanwijzingen bieden voor het afleiden van stabiele motivaties en beslissingsprincipes. \BenchName~reconstrueert elk verhaal tot een tijdverankerde stroom met flashbackbewustzijn en evalueert modellen met op bewijs gebaseerde vragen die feitelijke herinnering, toeschrijving van subjectieve toestanden en redenering op principe-niveau omvatten. Over diverse verhaalbronnen heen verbeteren retrieval-augmented systemen voornamelijk de feitelijke nauwkeurigheid, terwijl fouten blijven bestaan bij temporeel verankerde verklaringen en hogere inferenties, wat de behoefte aan geheugenmechanismen voorbij retrieval benadrukt. Onze gegevens zijn beschikbaar in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
English
Existing long-horizon memory benchmarks mostly use multi-turn dialogues or synthetic user histories, which makes retrieval performance an imperfect proxy for person understanding. We present \BenchName, a publicly releasable benchmark built from long-form autobiographical narratives, where actions, context, and inner thoughts provide dense evidence for inferring stable motivations and decision principles. \BenchName~reconstructs each narrative into a flashback-aware, time-anchored stream and evaluates models with evidence-linked questions spanning factual recall, subjective state attribution, and principle-level reasoning. Across diverse narrative sources, retrieval-augmented systems mainly improve factual accuracy, while errors persist on temporally grounded explanations and higher-level inferences, highlighting the need for memory mechanisms beyond retrieval. Our data is in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
PDF461January 15, 2026